Extração e processamento dos dados referentes a série histórica do DI desde 04/07/1994 à 26/07/2021
- Clone o repositório contendo imagens dockers prontas para rodar o projeto:
$ git clone https://github.com/jupyter/docker-stacks.git
- Execute a seguinte imagem:
$ cd docker-stacks
$ docker run -p 8888:8888 jupyter/pyspark-notebook
- No terminal do container fazer o clone do projeto:
$ git clone https://github.com/dahn94/di-spark.git
- Instale algumas dependencias:
$ pip install -r requirements.txt
- Realize a extração dos dados:
$ python3 extract.py
- Realize o processamento dos dados e salve em formato data-table.
$ python3 spark_processing.py