Repositório de Raspagem de dados de despesas expostas no site da Sefaz-AM, utilizando Python 3, Selenium e pandas.
Ao realizar o download deste repositório, você encontrará a seguinte árvore de arquivos:
Raspagem Sefaz
├── Análise.html
├── Análise.ipynb
├── LICENSE
├── README.md
├── output
│ ├── graficos
│ │ ├── barra-a-pagar.png
│ │ └── linha-total.png
│ ├── sefaz-Fonte de Recurso.csv
│ ├── sefaz-Função.csv
│ ├── sefaz-fonte-final.csv
│ └── sefaz-fonte-total.csv
├── scraping-sefaz.py
└── selenium-step-by-step.txt
Abaixo está uma descrição dos arquivos mais importantes do repositório:
- Análise.html : notebook de análise de dados salvo em html
- Analise.ipynb : notebook de análise de dados
- scraping-sefaz.py : script de Raspagem de Dados
- output : pasta com arquivos e gráficos de saída
- Instalar python 3
$ sudo apt install python3 python3-pip
- Instalar bibliotecas
$ sudo pip3 install -r requirements.txt
- Baixar o driver do selenium para seu navegador aqui
- copiar o executável para
/usr/bin
Acesse python.org e baixe a opção "Latest Python 3 Release - Python 3.7.3".
Abra o terminal clicando em Iniciar -> Digite cmd Quando abrir, digite python e dê enter. Se estiver tudo ok, deve aparecer:
" Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) MSC v.1914 64 bit (AMD64) on win32
Type "help", "copyright", "credits" or "license" for more information. "
Se aparecer
"Python is not recognized as an internal or external command, operable program or batch file."
Então você deve adicionar o python às suas variáveis.
1. No sistema Windows, clique com o botão direito em Meu Computador ou Este PC.
2. Selecione Propriedades.
3. Selecione configurações avançadas do sistema.
4. Clique no botão Variáveis de Ambiente.
5. Em Variáveis do sistema, selecione PATH.
6. Clique no botão Editar.
7. Clique no botão Novo
8. Cole o caminho do arquivo python.exe -- C:\Python37 e C:\Python37/Scripts, separados por ```;```.
9.Clique OK.
Para isto, baixe o arquivo em https://bootstrap.pypa.io/get-pip.py
Abra o terminal clicando com o botão direito no espaço vazio da pasta em que o arquivo está, e depois em "Abrir Terminal".
Em seguida, execute
$ python get-pip.py
Mais informações de instalaçao aqui
Abra o terminal cnforme descrito na seção 2 e digite:
$ pip install -r requirements.txt
Encontre a engine do selenium para seu navegador aqui e realize o download
Adicione o executável da engine às variáveis do ambiente do seu sistema de maneira análoga à descrita na seção 2.
Abrir o terminal na pasta do projeto e executar:
$ python3 scraping-sefaz.py
Abrir o jupyter
$ jupyter notebook
Abrir o arquivo Análise.ipynb
Para rodar as células, use o atalho SHIFT + ENTER.