Análise e Discussão Big Data

Se você se interessa por Big Data, precisa entender o CRISP-DM

CRISP-DM
4

Você já trabalha ou quer trabalhar com Big Data? Eis aqui um assunto que pode diferenciar sua prática no campo dos grandes dados: CRISP-DM.

Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia especificamente desenhada para processos de mineração de dados. Sua aplicação vem se tornando cada vez mais recorrente em projetos de Big Data.

Neste artigo, você entenderá como esse método funciona e como ele pode ser importante em seu trabalho.

Metodologias de mineração de dados e Big Data Analytics

Com uma breve busca pelo Google sobre métodos que orientem profissionais de T.I em trabalhos de data mining, certamente você encontrará resultados como PMI, Agile, Rup e afins.

Acontece que, se o seu objetivo é trabalhar com Big Data, essas respostas nem sempre atenderão sua demanda completamente.

Essas metodologias são ideais para o planejamento e execução de projetos de software, mas não foram pensadas exclusivamente para Big Data e demais cenários que envolvam processos relacionados à análise de grandes volumes de dados.

Uma metodologia própria para ocasiões que envolvam data mining é um ponto crucial para quem pretende ser profissional na área. Enquanto trabalhos como desenvolvimento de softwares e demais serviços de T.I. costumam ser majoritariamente pragmáticos, as atividades de um cientistas de dados são um pouco diferentes e costumam envolver fatores mais analíticos.

Propósitos diferentes merecem métodos diferentes. É justamente em função de sua especificidade e da lacuna deixada pelas outras metodologias de trabalho que o CRISP-DM se destaca.

Esse modelo de trabalho é dividido em 6 principais etapas:

CRISP-DM_Process_Diagram

1- Entendimento do negócio:

Esta é a etapa em que o profissional deve buscar uma compreensão adequada do problema que necessita ser resolvido. É preciso buscar detalhes sobre como a questão afeta a organização e quais são os principais objetivos e expectativas em relação ao trabalho como um todo.

Na prática: imagine que uma faculdade quer entender por qual motivo seu número de alunos diminuiu 40% em um determinado mês. Muitos cancelaram suas matrículas no final do segundo semestre e a instituição precisa tirar insights destes dados para evitar a repetição dessa evasão.

2- Compreensão dos dados:

Após a primeira etapa, o objetivo torna-se inspecionar, organizar e descrever todos os dados disponíveis. É fundamental a avaliação do profissional em busca de quais dados podem ser relevantes para decifrar o problema. Por exemplo, dados de vendas, do desempenho escolar desses alunos, das redes sociais relacionadas à instituição de ensino, de pagamento e faturas atrasadas, dentre outros.

O que mais pode haver de revelador nessas bases de dados?

Na prática: lembra-se da nossa universidade? É hora do data scientist acionar seu senso investigativo para dados de valor: há históricos de entrada e evasão de alunos de anos anteriores? Quais são os fatos atípicos que envolvem cada fase do ano capaz de afetar na saída do aluno? Existem dados do desempenho escolar dos alunos que cancelaram a matrícula?

Todas essas são questões importantes para o caso. Estudar todas as tabelas disponíveis e medir a possibilidade de criar uma visão única para a análise fazem parte dessa fase.

3- Preparação dos dados:

Definidos, organizados e bem inspecionados, nesta etapa o profissional deverá conduzir os dados tecnicamente. É preciso preparar todas as databases, definir o formato que será necessário para a análise e ajustar demais questões técnicas.

Na prática: nesta etapa o profissional precisa selecionar e escolher os atributos dos dados que trabalhará. As planilhas com os históricos de pagamentos e de desempenho dos alunos estão organizadas? Esses dados estão padronizados? Se não estão, como tornar isso possível?


Leia também: 6 bases de dados gratuitas para mineração, estudos e testes


4- Modelagem:

Neste quarto momento, são selecionadas e aplicadas as técnicas de mineração de dados mais apropriadas, dependendo dos objetivos identificados na primeira fase.

Na prática: ainda utilizando a situação da universidade como exemplo, é nesta etapa que o cientista de dados coloca em prática a estratégia mais adequada (que pode ser a mineração associada à análise preditiva, por exemplo) para resolver a questão identificada durante o entendimento do negócio.

É possível desdobrar os dados minerados para que eles alimentem algoritmos capazes de ajudar a prever (e diminuir) crises de evasão, por exemplo.

5- Avaliação:

Considerada uma etapa de after-work, mas ainda assim extremamente importante para a vitalidade do ciclo, a quinta fase pede o acompanhamento dos resultados objetivos e a avaliação da aplicabilidade confiável dos insights e conhecimentos obtidos.

Na prática: reuniões bimestrais apresentando os insights da equipe de Big Data Analytics para demais envolvidos nas tomadas de decisão e contato com os clientes poderia ser uma das maneiras de executar essa etapa no nosso exemplo da universidade.

6- Desenvolvimento:

Todo o conhecimento que for obtido por meio do trabalho de mineração e modelagem agora poderá ser aplicado de forma prática. O ideal aqui é dar uma entrega mais palpável e aplicável ao cliente a partir das análises dos dados feitas pela equipe.

Algumas das expectativas que se pode ter a partir deste passo é a mudança de processos da empresa ou criação de novos produtos.

Na prática: suponhemos que a universidade tenha percebido que os alunos que evadiram em novembro de 2015, bem como os que também agiram de forma parecida nos anos anteriores, tinham em comum o atraso das mensalidades e notas baixas.

Agora é a hora de usar essas informações para desenvolver medidas reversivas, como um programa especial para quitação de dívidas com condições especiais.

E pronto! Chegamos ao fim de um ciclo do CRISP-DM. O ideal é que ele se repita periodicamente.


Leia também: 4 fatos que você precisa saber ao trabalhar com dados


Como surgiu o CRISP-DM?

Embora seja um assunto desconhecido para muitos, o CRISP-DM não é uma metodologia nova. O modelo de trabalho nasceu em 1996 a partir da iniciativa de profissionais que trabalhavam com data mining e buscavam desenvolver um modelo de processo capaz de funcionar em qualquer tipo de indústria, gratuito e não-proprietário, capaz de preencher essa lacuna.

Coloque em prática!

Agora que você já sabe o passo a passo do método, é só colocar em prática. Reuna sua equipe e passe por cada etapa para ter um final mais valioso. Você já está munido das melhores práticas para gerenciar seu trabalho de Big Data Analytics.

Já teve alguma experiência com este ou outra metodologia de trabalho de dados? Compartilhe com a gente nos comentários!

add-banner (1)

Related Post

  • Pingback: Small Data e Big Data: você sabe qual a diferença entre eles?()

  • Pingback: Como se tornar um Gerente de Projetos de Big Data? | Big Data Business()

  • Gabriel Lima Gomes

    Para mim, o CRISP-DM é o KDD escrito com outras palavras, mas na prática vocês vem alguma diferença?

    • Hekima

      Ótima observação, Gabriel!

      Apesar da origem ser diferente, os métodos são muito semelhantes. Um ponto interessante é que o CRISP-DM dá uma ênfase maior ao problema de negócio, mas não podemos negar que, no fundo, ele utiliza um framework muito parecido com o KDD.

      Abraços!

      • Gabriel Lima Gomes

        Pois é, porque se aprofundar no estudo de KDD, Fayyad cita 9 etapas para o processo KDD, mas são divulgadas amplamente somente 6, e antes da etapa da seleção, Fayyad enfoca muito no “entendimento do negócio/problema”.