Repositório de instrução para o desafio técnico para vaga de Pessoa Engenheira de Dados no Escritório de Dados do Rio de Janeiro
.
├── docs
│ └── README.md
├── logs
│ └── dbt.log
├── pipelines
│ ├── credentials.json
│ ├── data
│ │ └── dados_brt.csv
│ ├── flows.py
│ ├── __init__.py
│ ├── run.py
│ ├── tasks.py
│ └── utils.py
├── README.md
├── requirements.txt
└── rio_brt_data
├── dbt_project.yml
├── dev
│ ├── compiled
│ │ └── rio_brt_data
│ │ └── models
│ │ └── example
│ │ ├── my_first_dbt_model.sql
│ │ └── my_second_dbt_model.sql
│ ├── graph.gpickle
│ ├── manifest.json
│ ├── partial_parse.msgpack
│ ├── run
│ │ └── rio_brt_data
│ │ └── models
│ │ └── example
│ │ ├── my_first_dbt_model.sql
│ │ └── my_second_dbt_model.sql
│ └── run_results.json
├── logs
│ └── dbt.log
├── models
│ ├── rio_brt_data.sql
│ ├── schema.yml
│ └── select_data_brt.sql
├── README.md
└── tests
Descrição: Pasta com os arquivos do pipeline Prefect.
Nome | Descrição |
---|---|
flows.py | Arquivo com os flows a serem executados |
tasks.py | Arquivo com as tasks a serem executadas. |
utils.py | Arquivo de utilidades do projeto Prefect. |
run.py | Arquivo que executa o pipeline. |
data | Pasta que recebe o arquivo CSV gerado no pipeline. |
Descrição: Pasta com os arquivos do projeto dbt.
Nome | Descrição |
---|---|
models | Pasta com os modelos dbt. |
models/rio_brt_data.sql | Modelo que cria a tabela. |
models/select_data_brt.sql | Modelo que cria a view do desafio. |
models/schema.yml | Arquivo que documenta os modelos. |
dbt_project_yml | Arquivo com as configurações do dbt. |
- Clone o repositório
https://github.com/lingsv/emd-desafio-data-eng_ana_carolina_gomes.git
; - Navegue até a pasta do projeto;
- Crie um ambiente Python localmente
- Ative o ambiente e digite
pip install -r requirements.txt
; - Configure uma instância local do PostgreSQL;
- Crie um arquivo credentials.json na pasta pipelines;
- O arquivo deve ter este template:
{
"host": "host",
"database": "database",
"user": "user",
"password": "password"
}
- Ainda no diretório pipeline, digite
python run.py
;
- No mesmo ambiente criado para executar o pipeline Prefect, navegue até a pasta rio_brt_data;
- Digite
dbt run
; - Confira se os modelos foram criados com sucesso;
- Para ver a documentação, digite
dbt docs generate
; - Em seguida, digite
dbt docs serve
, uma página web se abrirá com os dados das tabelas; - Para limpar a pasta do projeto, digite
dbt clean
.