Artigos

A qualidade de dados na era da inteligência artificial

Qualidade de dados na era da IA

Projetos com uso intensivo de dados têm uma única falha: a qualidade dos dados

Como diretor de sistemas de suporte à decisão de dados, entreguei mais de 80 projetos com uso intensivo de dados em vários setores de grandes corporações. Isso inclui armazenamento de dados, integração, inteligência de negócios, desempenho de conteúdo e modelos preditivos. Na maioria dos casos, a qualidade dos dados provou ser um fator crítico para o sucesso do projeto.

O desafio “óbvio” em todos os casos era consultar efetivamente fontes heterogêneas e extrair e transformar os dados em um ou mais modelos de dados.

O desafio “não óbvio” foi a identificação precoce de problemas, que — na maioria dos casos — eram desconhecidos também pelos proprietários das informações.

Iniciamos estrategicamente todos os projetos com uma fase de avaliação da qualidade dos dados — que, em muitos casos, leva à modificações no escopo do projeto e até à iniciativas e projetos adicionais de limpeza dessas informações.

Faça o download deste post inserindo seu e-mail abaixo

Não se preocupe, não fazemos spam.
Powered by Rock Convert

Definindo a qualidade dos dados 

Existem muitos aspectos na qualidade dos dados, incluindo consistência, integridade, precisão e conformidade. De acordo com a Wikipedia, os dados geralmente são considerados de alta qualidade se “forem adequados para [seus] usos pretendidos nas operações, o processo decisório e o planejamento. Além disso, são considerados de alta qualidade se apresentarem corretamente a construção do mundo real a que se referem”.

Defino a qualidade como o nível de conformidade de um conjunto de dados em normalidade contextual.

Essa normalidade é estabelecida por regras definidas pelo usuário e/ou derivadas estatisticamente. É contextual, no sentido de que as regras refletem a lógica de determinados processos de negócios, conhecimento corporativo, condições ambientais, sociais, etc. Por exemplo, uma propriedade da mesma entidade pode ter regras de validação diferentes em diferentes empresas, mercados, idiomas ou moedas.

Os sistemas modernos precisam conhecer a qualidade dos dados. Eles devem identificar instantaneamente possíveis problemas e evitar a exposição de dados sujos, imprecisos ou incompletos aos componentes de produção/clientes conectados.

Isso implica que, mesmo se houver uma situação repentina e problemática que resulte na captação de dados de baixa qualidade, o sistema poderá lidar com esse problema e notificar prontamente os usuários certos.

Dependendo de quão críticos sejam os problemas, ele também pode negar a veiculação de dados para seus clientes — ou veicular enquanto alerta e sinaliza os possíveis problemas.

Leia também

Androides sonham? – Frontiers #1, evento da MIT Sloan Review Brasil, discute Inteligência Artificial

A importância da qualidade dos dados

A qualidade dos dados é de importância crítica, especialmente na era das decisões automatizadas, da IA e da otimização contínua do processo. As empresas precisam ser data driven e a qualidade dos dados é uma condição essencial para alcançar isso.

Confusão, confiança limitada, más decisões

Na maioria dos casos, os problemas de qualidade dos dados explicam a confiança limitada nesses ativos pelos usuários corporativos, desperdício de recursos ou mesmo decisões ruins.

Considere uma equipe de analistas tentando descobrir se um erro externo é uma descoberta crítica de negócios ou um problema de dados desconhecido ou mal tratado. Pior ainda, considere decisões em tempo real sendo tomadas por um sistema incapaz de identificar e manipular dados ruins que acidentalmente — ou mesmo intencionalmente — foram alimentados no processo.

Falhas devido à baixa qualidade dos dados

Vi grandes iniciativas de inteligência de negócios, gestão de dados e outras alternativas falhando devido ao baixo envolvimento dos principais usuários e partes interessadas. Na maioria dos casos, o envolvimento limitado foi o resultado direto da falta de confiança. Os usuários precisam confiar nos dados. Caso contrário, abandonarão gradualmente o sistema, afetando seus principais KPIs e critérios de sucesso.

Sempre que achar que realizou uma grande descoberta, verifique primeiro se existem problemas de qualidade!

Tipos e sintomas

Os problemas de qualidade de dados podem assumir várias formas, por exemplo:

  • propriedades particulares em um objeto específico têm valores inválidos ou ausentes;
  • um valor que vem em um formato inesperado ou corrompido;
  • instâncias duplicadas;
  • referências inconsistentes ou unidade de medidas;
  • casos incompletos;
  • URLs quebrados;
  • dados binários corrompidos;
  • pacotes de dados ausentes;
  • lacunas nos feeds;
  • propriedades incorretamente mapeadas.

A causa raiz

Os problemas de qualidade dos dados geralmente são o resultado de:

  • implementações ruins de software: erros ou manuseio inadequado de casos particulares
  • problemas no nível do sistema: falhas em certos processos
  • alterações nos formatos de dados, impactando os armazenamentos de dados de origem e de destino

Os sistemas modernos devem ser projetados assumindo que em algum momento haverá feeds de dados problemáticos e problemas inesperados de qualidade.

A validade das propriedades dos dados pode ser avaliada em relação a [a] regras conhecidas e predefinidas e [b] regras e padrões derivados dinamicamente, com base no processamento estatístico.

Uma estratégia para a qualidade dos dados

Um projeto moderno de uso intensivo de dados geralmente envolve fluxos de dados, processos ETL (Extract, Transform, Load ou Extrar, Transformar e Carregar) complexos, lógica de pós-processamento e uma variedade de componentes analíticos ou cognitivos.

A principal entrega em tais cenários é um pipeline de processamento de dados de alto desempenho, alimentando e mantendo pelo menos um repositório. Isso define um “ambiente de dados”, que capacita modelos analíticos avançados, tomadas de decisões em tempo real, extração de conhecimento e possivelmente aplicativos de IA. A seguir, é apresentada uma estratégia para garantir a qualidade dos dados ao longo desse processo.

Identifique, entenda e documente as fontes de dados

Você precisa identificar suas fontes de dados e, para cada uma, documentar brevemente o seguinte:

1. Tipo de dados contidos — por exemplo, registros de clientes, tráfego da Web, documentos do usuário, atividade de um dispositivo conectado (em um contexto de IoT).

2. Tipo de armazenamento — por exemplo, é um arquivo simples, um banco de dados relacional, um armazenamento de documentos ou um fluxo de eventos?

3. Prazos — por quanto tempo temos os dados?

4. Frequência e tipos de atualizações — você está recebendo deltas, eventos, atualizações, dados agregados? Tudo isso pode impactar significativamente o design do pipeline e a capacidade de identificar e lidar com problemas de qualidade.

5. A fonte e os sistemas envolvidos — os dados são provenientes de outro sistema? É um feed contínuo de eventos ou um processo em lote extraído de outro sistema integrado? Há entrada e validação manual de dados envolvidos?

6. Problemas de dados e limitações conhecidas podem ajudar a acelerar a fase inicial do exame de dados — se fornecida antecipadamente.

7. Os modelos de dados envolvidos na fonte específica — por exemplo, um modelo de ER que representa clientes, uma estrutura de arquivo simples, um objeto, um esquema em estrela.

8. Partes interessadas envolvidas — isso é muito importante para interpretar questões e casos extremos e também para validar o estado geral dos dados, com aqueles que têm um entendimento mais profundo dos dados, dos negócios e dos processos relacionados.

Leia também

Sem mágicas: descubra como funciona a estratégia de dados da Disney

Comece com a criação de perfil de dados

A criação de perfil de dados é o processo de descrição, executando uma análise estatística descritiva básica e um resumo. A chave é documentar brevemente as descobertas, criando assim uma linha de base — um ponto de referência a ser usado para validação de dados ao longo do processo.

A criação de um perfil depende do tipo dos dados subjacentes e do contexto comercial, mas em um cenário geral, você deve considerar o seguinte:

  1. Identifique as principais entidades, como cliente, usuário, produto, os eventos envolvidos, como registro, login, compra, prazo, geografia e outras dimensões importantes dos seus dados.
  2. Selecione o período de tempo típico a ser usado para sua análise. Pode ser um dia, semana, mês e assim por diante, dependendo dos negócios.
  3. Analise tendências de alto nível envolvendo as entidades e eventos identificados. Gere séries temporais com relação aos principais eventos e às principais entidades. Identifique tendências, sazonalidade, picos e tente interpretá-los no contexto de uma empresa em particular. Consulte o proprietário dos dados e capture / documente essas “histórias de dados”.
  4. Analise os dados. Para cada uma das propriedades de suas principais entidades, faça um resumo estatístico para capturar a forma dos dados. Para valores numéricos, você pode começar com o básico — mínimo, médio, máximo, desvio padrão, quartis — e, em seguida, visualizar a distribuição dos dados. Feito isso, examine a forma da distribuição e descubra se faz sentido para os negócios. Para valores categóricos, você pode resumir o número distinto de valores por frequência e, por exemplo, documentar os principais valores x que explicam z% dos casos.
  5. Reveja alguns pontos fora da curva. Pela distribuição dos valores de uma propriedade específica — digamos, a idade do cliente — tente descobrir valores “suspeitos” no contexto de uma empresa em particular. Selecione alguns deles e recupere as instâncias reais das entidades. Em seguida, revise seu perfil e atividade — dos usuários específicos, neste exemplo — e tente interpretar os valores suspeitos. Consulte o proprietário dos dados para obter orientação sobre essas descobertas.
  6. Documente seus resultados. Crie um documento ou relatório compacto com uma estrutura clara para atuar como sua linha de base e referência de dados. Você deve anexar as descobertas de cada uma das fontes de dados a esse documento único — com a mesma estrutura, referências de tempo e metadados para garantir uma interpretação mais fácil.
  7. Revise, interprete, valide. Essa é a fase em que você precisa da entrada do proprietário dos dados para fornecer uma interpretação geral dos dados e explicar casos extremos, outliers ou outros padrões inesperados. O resultado do processo pode ser confirmar o estado dos dados, explicar problemas conhecidos e registrar novos. É aqui que possíveis soluções para problemas conhecidos de dados podem ser discutidas e / ou decididas. Além disso, as regras de validação podem ser documentadas.

Em um cenário ideal, o processo de criação de perfil de dados deve ser automatizado. Existem várias ferramentas que permitem a criação rápida de perfis, conectando sua fonte de dados e passando por uma configuração rápida.

A saída do processo em tais cenários é geralmente um relatório interativo, permitindo fácil análise dos dados e compartilhamento do conhecimento com a equipe.

Estabeleça um repositório de referência de qualidade de dados

Os objetivos do armazenamento de referência de qualidade de dados (DQR) são capturar e manter regras de metadados e validade sobre seus dados e disponibilizá-los para processos externos.

Esse poderia ser um sistema altamente sofisticado para derivar automaticamente regras sobre a validade de seus dados e avaliar continuamente os (lotes de) casos recebidos, com a capacidade de identificar padrões relacionados a tempo e outros sobre seus dados. Esse poderia ser um conjunto de regras mantido manualmente, que permite a rápida validação dos dados recebidos, e essa poderia ser uma configuração híbrida.

De qualquer forma, o processo ETL deve poder consultar o repositório DQR e carregar as regras e padrões de validação de dados, acompanhado das diretivas de fixação. As regras de validação de dados devem ser dinâmicas em vez de um conjunto fixo de regras ou peças de lógica codificadas.

O repositório DQR também deve ser acessível por meio de relatórios interativos e painéis padronizados — para capacitar os proprietários e analistas a entenderem os dados, o processo, as tendências e os problemas.

Implemente uma validação de dados inteligentes

Ative seu pipeline de processamento de dados para carregar regras de validação de dados do repositório DQR descrito acima. O repositório DQR pode ser projetado como um subsistema ETL interno ou externo ao serviço ETL. De qualquer forma, a lógica para validar dados, juntamente da ação sugerida, deve ser dinâmica no seu processo ETL.

O pipeline de processamento de dados deve validar continuamente (lotes de) casos com base na versão mais recente das regras de validação.

O sistema deve ser capaz de sinalizar e possivelmente enriquecer os dados recebidos originais com o resultado da validação e dos metadados relacionados, além de fornecer retorno ao repositório DQR. Os dados originais são armazenados, com sinalização adequada pelo ETL, a menos que seja indicado de outra forma pela política de validação atual.

Com essa abordagem, a qualidade dos dados pode ser medida e analisada contra o tempo, por exemplo, por fonte de dados, pipeline de processamento. Os relatórios interativos podem ajudar a explorar facilmente o estado geral do processo ETL e identificar e explorar rapidamente preocupações com a qualidade dos dados ou problemas específicos.

O sistema também poderia suportar um “Índice de qualidade de dados” geral. Isso consideraria vários aspectos da qualidade e atribuir mais importância a entidades e eventos específicos. Por exemplo, um registro de transação incorreto pode ser muito mais importante do que um hiperlink quebrado para uma imagem.

O Índice de Qualidade de Dados também pode ter elasticidade específica — diferente por entidade e evento. Por exemplo, isso pode permitir atrasos no recebimento de dados para uma entidade específica e não para outra.

Ter um índice geral de qualidade dos dados pode ajudar a empresa a medir a qualidade ao longo do tempo e nas principais dimensões dos negócios. Também pode ajudar a definir metas e quantificar o impacto de possíveis melhorias da estratégia ETL.

Uma camada de notificação inteligente

O processo geral deve estar ciente de quaisquer problemas de qualidade, tendências e mudanças repentinas. Além disso, o sistema precisa saber a importância — quão crítica é uma questão. Com base nessa conscientização e em uma camada de configuração inteligente, o sistema sabe quando notificar quem e por qual canal específico.

Os sistemas modernos devem estar cientes da qualidade dos dados recebidos e capazes de identificar, relatar e lidar com casos errados de acordo.

Este conteúdo é uma tradução e adaptação do texto originalmente produzido pela freeCodeCamp.

Publicações relacionadas
Artigos

Experiência Criativa é a evolução de Customer Experience

Artigos

Para implementar o marketing ágil é essencial ter uma cultura baseada em dados

Artigos

Case Microsoft: como o Microsoft Teams ganhou espaço no mercado

Artigos

Por que a promessa das criptomoedas de mudar a forma como fazemos negócios ainda não se concretizou