di-spark

Extração e processamento dos dados referentes a série histórica do DI desde 04/07/1994 à 26/07/2021

Configuração necessária para rodar o projeto

$ git clone https://github.com/jupyter/docker-stacks.git

$ cd docker-stacks
$ docker run -p 8888:8888 jupyter/pyspark-notebook

$ git clone https://github.com/dahn94/di-spark.git

$ pip install -r requirements.txt

$ python3 extract.py

$ python3 spark_processing.py

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
data_entrada.csv		data_entrada.csv
data_saida.snappy.parquet		data_saida.snappy.parquet
extract.py		extract.py
notebook_di.ipynb		notebook_di.ipynb
requirements.txt		requirements.txt
spark_processing.py		spark_processing.py