Data preparation: alicerce dos projetos de Big Data

20
11

No artigo sobre tendências de Big Data em 2017, a primeira a aparecer é data preparation, ou preparação de dados.

O primeiro lugar não é por acaso. Data preparation tem se tornado uma prioridade cada vez maior das empresas dispostas a trabalhar com a coleta e análise de dados.

As razões para o aumento da importância dada à preparação de dados? É o que você encontrará neste artigo.

O que é data preparation?

Imagine a construção de um edifício de luxo. Por mais dinheiro que seja investido, ele só será erguido com segurança caso sua fundação seja feita da forma correta, com bons alicerces. Só então as etapas mais avançadas de construção, como o acabamento, serão possibilitadas.

O mesmo raciocínio vale para data preparation. Um projeto de Big Data, por mais grandioso e refinado que seja, com escopo bem definido, só alcançará os resultados desejados e gerará vantagem competitiva caso os dados disponíveis (os alicerces da construção) estejam estruturados para sustentar o desenvolvimento do trabalho.

Data preparation é o processo de coletar, limpar, normalizar, combinar, estruturar e organizar dados para análise. Ele é o passo inicial (e fundamental) para que o trabalho com Big Data seja bem-sucedido, uma vez que aumenta a qualidade dos dados – e, consequentemente, dos resultados com data mining. Dados “pobres”, de qualidade ruim, geram resultados incorretos e não-confiáveis ao fim do processo de uso das tecnologias de Data Science.

Banner Simplicidata

Benefícios gerais

A qualificação de dados realizada pelo processo de data preparation gera outros importantes benefícios ao trabalho com Big Data:

  • Ponto de partida comum para diversos projetos: a etapa de data preparation é comum às diversas possíveis aplicações de Big Data, tornando os dados aptos a serem empregados em qualquer análise;
  • Autonomia para áreas de negócio com dados confiáveis: data preparation descentraliza a análise, sem perder a veracidade e confiabilidade dos dados, simplificando a gestão de TI;
  • Velocidade do dado puro ao insight: análises manuais são custosas, específicas e muitas vezes imprecisas. Por meio de técnicas de data preparation, esse esforço torna-se drasticamente menor e menos repetitivo.

banner blog (1)

Situações de uso

Data preparation é uma etapa necessária em diferentes situações. Por exemplo, quando os dados brutos apresentam falhas – como valores faltantes ou inconsistentes. Isso acontece muito quando dados são inseridos manualmente ou extraídos de fontes não estruturadas (como documentos de PDF).

Em outro contexto, data preparation é importante quando se combina conjuntos de dados oriundos de múltiplas fontes e em diversos formatos.

Dentre as ações inerentes ao processo de preparação de dados, algumas das mais comuns são remoção de abreviações, normalização de dados numéricos, exclusão de campos repetidos, preenchimento de campos vazios, padronização de formatos de datas e de unidades, hierarquização de entradas, detecção de anomalias e deduplicação e desambiguação de entradas.


Leia também: Análise Preditiva: tudo sobre este pilar de Big Data


Passo a passo do processo

O processo de data preparation consiste de algumas etapas-chave para a sua correta execução. São elas:

  • Análise: os dados são verificados em busca de erros e anomalias a serem corrigidos;
  • Workflow: após a verificação dos dados, um workflow intuitivo, constituído por uma sequência de operações de data preparation para tratar os erros dos dados, é formulado;
  • Validação: a correção do workflow é avaliada em um comparativo com uma amostra representativa do conjunto de dados. Nesta etapa existe a possibilidade de o workflow passar por ajustes, pois erros não detectados anteriormente podem ser encontrados;
  • Transformação: uma vez que a eficácia do workflow é validada na amostra, é executada a transformação de todo o conjunto de dados (e o “verdadeiro” processo de data preparation ocorre);
  • Substituição: por fim, a etapa derradeira do processo de data preparation consiste em substituir os dados falhos pelos dados “limpos”.

Como você pode perceber com a leitura deste artigo, em suma, data preparation assegura que a informação preparada para análise esteja precisa e consistente, a fim de que os resultados gerados pelo trabalho com Big Data sejam válidos.

Você já sabia dessa influência da preparação de dados sobre os bons resultados dos projetos de Big Data? Compartilhe suas experiências conosco!

Sobre o autor:

juliano_ferreira_hekima_editJuliano é membro da equipe de Marketing da Hekima e cuida da área de Sucesso do Cliente. É apaixonado por leitura e escrita e, nas horas vagas, não dispensa uma cerveja ou uma partida de Fifa (quiçá ambas as coisas juntas).

Top