Review do livro Fundamentos de Qualidade de Dados (Parte 2)

Finalmente, vamos para a segunda parte da nossa review, que contém conteúdo dos últimos 5 capítulos do livro.

Bem-vindos de volta!

No primeiro artigo desta série, exploramos a base da qualidade de dados. Vimos por que ela é crucial, os componentes de um sistema confiável, e as práticas essenciais de coleta, teste, monitoramento e arquitetura (Capítulos 1 a 5).

Agora que entendemos o fundamento de como construir isso, é hora de escalar. Como gerenciamos a qualidade em ecossistemas de dados complexos e em constante crescimento? Como transformamos a qualidade de dados de uma tarefa técnica em parte da cultura da empresa?

Vamos descobrir isso juntos!

Corrigindo Problemas em Escala de Qualidade de Dados

Este capítulo é sobre a estratégia de correção, mas também sobre prevenção de certos problemas. Uma vez que, com o aumento de volume de dados, o nível de complexidade para se resolver problemas, definitivamente aumenta.

Quando um pipeline quebra ou um dashboard mostra números absurdos, o que fazemos? O livro argumenta contra correções manuais e “remendos” que não resolvem a causa raiz.

A abordagem adequada envolve:

  • Triagem: Nem todo problema de dados tem o mesmo impacto. É preciso classificar os incidentes: o que é crítico e precisa ser resolvido agora e o que pode ser agendado ?
  • Automação da Correção: Em vez de um engenheiro rodar um script manual para limpar dados, o ideal é construir processos automatizados para mitigar incidentes. Dados ruins são isolados, o pipeline principal continua, e um alerta é gerado para a correção estrutural.
  • Prevenção: Uma vez que um problema é corrigido, como garantimos que ele não volte? A resposta é adicionar um novo teste de dados específico para aquele cenário.

A remediação de dados em escala exige processos claros de triagem, automação para isolar problemas e a criação de testes de regressão para evitar reincidências. Algo interessante que o livro também traz nesse capítulo, é sobre realizar análise Postmortem sem atribuição de culpa, ou seja, com o único objetivo de registrar o que aconteceu, entender o problema e estabelecer uma comunicação efetiva sobre o que será feito para resolvê-lo.

Criação de Linhagem Integral

Se você já se perguntou “De onde exatamente veio esse número no dashboard?” ou “Se eu alterar esta coluna na tabela X, quais relatórios vão quebrar?”, então você entende a necessidade de Linhagem de Dados.

A linhagem é o mapa que mostra a jornada completa do dado, desde sua origem até seu destino final , passando por todas as transformações.

O livro define que um sistema de “linhagem integral” oferece:

  • Análise de Causa Raiz: Quando um dado está errado, a linhagem permite “andar para trás” e identificar exatamente em qual etapa do pipeline a anomalia foi introduzida.
  • Análise de Impacto: Permite “andar para frente” para entender todas as dependências de um ativo de dado. Essencial para planejar migrações e mudanças no esquema.
  • Confiança e Auditoria: Aumenta a confiança dos usuários, que podem ver a proveniência dos dados que consomem.

A linhagem de dados é uma ferramenta de diagnóstico essencial para gerenciar a complexidade dos ecossistemas de dados modernos. O livro também discute como construir uma linhagem, design e traz um estudo de caso para garantir o entendimento dessa ferramenta.

Democratizando a Qualidade de Dados

Particularmente, esse capítulo me surpreendeu positivamente, porque foca em cultura. A qualidade de dados não pode ser responsabilidade exclusiva de um pequeno grupo de engenheiros. Ela precisa ser uma responsabilidade compartilhada. E sabemos que criar e manter essa cultura, não é uma tarefa simples.

Democratizar a qualidade significa dar a todos na empresa o poder e as ferramentas para participar do processo.

O livro discute sobre alguns pontos diante disso:

  • Visibilidade: Expor as métricas de qualidade em um catálogo de dados ou ferramenta similar. O analista de negócios deve conseguir ver a “saúde” do dado que está usando.
  • Propriedade (Ownership): Definir claramente quem são os “donos” dos dados (Data Owners). As equipes que produzem os dados (ex: times de engenharia de software) devem ser responsáveis pela qualidade do que geram.
  • Feedback Loop: Criar canais fáceis para que qualquer consumidor de dados possa reportar um problema (ex: um botão “Reportar Problema” no dashboard) e acompanhar sua resolução.

A qualidade de dados só se torna sustentável quando sai do backstage técnico e se torna parte da cultura, com propriedade clara e visibilidade para todos, que o livro nomeia como criar accountability para qualidade de dados, ou seja, esse senso de responsabilidade que deve ser descentralizado.

Qualidade de Dados no Mundo Real: Conversas e Estudos de Caso

Teoria é ótima, mas como isso funciona na prática? O livro reúne uma série de entrevistas e estudos de caso de empresas que estão na linha de frente dessa batalha.

São exploradas as dores reais, os “perrengues” de implementação e os “louros” das conquistas. Vemos como diferentes organizações, de diferentes setores do mercado, abordaram os mesmos problemas (linhagem, monitoramento, cultura) com diferentes stacks de tecnologia e em diferentes estágios de maturidade .

Os estudos de caso mostram que, embora os fundamentos e princípios sejam universais, a implementação bem-sucedida da qualidade de dados é adaptada ao contexto, à equipe e às prioridades de cada empresa.

O Futuro Pioneiro de Sistemas de Dados Confiáveis

O livro fecha olhando para o horizonte. Se hoje estamos focados em detectar e corrigir, o futuro é sobre prevenir e predizer falhas de dados.

O futuro pioneiro da confiabilidade de dados provavelmente será moldado por:

  • Observabilidade de Dados com IA: Uso de Machine Learning não apenas para detectar anomalias (como vimos no Capítulo 4), mas para prever problemas antes que impactem os usuários e até sugerir correções automáticas.
  • Data Contracts: Formalizar a relação entre quem produz o dado e quem o consome. Um “contrato” define o esquema, a semântica e as expectativas de qualidade, e quebras nesse contrato são tratadas como bugs de software.
  • Sistemas “Self-Healing”: Pipelines de dados que conseguem não apenas detectar um problema, mas isolá-lo, aplicar uma correção temporária e alertar os donos, tudo automaticamente.

O futuro da qualidade de dados é proativo, automatizado e profundamente integrado ao ciclo de vida de desenvolvimento, aproximando cada vez mais a engenharia de dados das melhores práticas da engenharia de software (DataOps).

Começamos entendendo o “porquê” e terminamos vislumbrando um futuro automatizado, mas o cerne da questão permanece: dados só geram valor real quando podemos confiar neles.

Espero que esta série tenha sido útil para você, seja para organizar seus próprios aprendizados ou para te incentivar a ler este livro.

Obrigado pela leitura e até a próxima!

Learn more about Review do livro Fundamentos de Qualidade de Dados (Parte 2)

Leave a Reply