Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[infra-cloud] | Adicionar labels às tabelas do GCP #1663

Closed
crislanealves opened this issue Jun 4, 2023 · 4 comments
Closed

[infra-cloud] | Adicionar labels às tabelas do GCP #1663

crislanealves opened this issue Jun 4, 2023 · 4 comments
Assignees
Labels
data-quality enhancement New feature or request

Comments

@crislanealves
Copy link
Member

crislanealves commented Jun 4, 2023

Sua solicitação de recurso está relacionada a um problema? Por favor descreva.

Atualmente, não temos muitas formas de fazer a rastreabilidade de custos no nosso no DL de forma mais granular. Daí a dificuldade de entender o aumento de custos quando temos um processo de ingestão incorreto ou algo do tipo. Exemplo:

image

Descreva a solução que você gostaria

Uma forma de melhorar a rastreabilidade no DL, é a utilização de labels. A ideia é adicionar labels via DBT para todas as tabelas que já existem e que serão adicionadas no futuro. Isso vai nos ajudar com a rastreabilidade de custos e com uma governança melhor nos nossos dados.

Descreva alternativas que você considerou

Processo de implementação via DBT é muito simples, com apenas uma linha de código.

Por exemplo:
labels = {'project_id': 'basedosdados', 'tema': 'economia'})

Código completo:
br_ibge_pnadc.microdados

Resultado:
image

Contexto adicional
O ideal é ter uma padrão já definido, alguns rótulos que podemos utilizar são:

project_id: basedosdados, basedosdados-dev [...]
owner: engenharia, bi, arquitetura [...]
data_source: bd_pro, bd_mais [...]
data_type: logs, transactions, sensitive, analyzes [...]
cost_center: administrativo, dados, plataforma [...]

Referencia:

Introduction to labels
Organize resources using labels

@mfagundes
Copy link
Collaborator

Excelente ideia. @lucascr91 e @laura-l-amaral acham que podemos designar alguém de dados para ir atualizando isso enquanto terminamos a migração? Acho que podem andar em paralelo sem problema algum.

@crislanealves
Copy link
Member Author

Antes é preciso definir qual padrão é o ideal. @rdahis que é mestre nisso 👑

@laura-l-amaral
Copy link
Contributor

Excelente ideia. @lucascr91 e @laura-l-amaral acham que podemos designar alguém de dados para ir atualizando isso enquanto terminamos a migração? Acho que podem andar em paralelo sem problema algum.

Acho que, depois que definirmos o padrão, podemos incluir labels nas novas tabelas, mas acho que pras tabelas antigas vale mais a pena a gente refazer quando for levar tudo que tá na mais pro repositório do DBT.

@laura-l-amaral
Copy link
Contributor

issue similar a basedosdados/pipelines#617

@laura-l-amaral laura-l-amaral closed this as not planned Won't fix, can't repro, duplicate, stale Jan 16, 2024
@github-project-automation github-project-automation bot moved this from 📋 Backlog to ✅ Finalizada! in Roadmap de dados Jan 16, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
data-quality enhancement New feature or request
Projects
Status: ✅ Finalizada!
Development

No branches or pull requests

5 participants