Análises preditivas para vendas futuras já são realidade no Varejo

Para melhorar a acuracidade de suas previsões, algumas empresas varejistas estão aumentando a granularidade das análises.

Contudo, isso desafia os sistemas atuais. Como prever as vendas considerando impactos sazonais, mudanças nas tendências, novas preferências dos clientes, ações de concorrentes diferentes e as repercussões promocionais produto a produto?

47
2

É possível mensurar a presença da sorte e da habilidade nos esportes?

Raquel Aoki, cientista de dados da Hekima, escolheu como tema para seu mestrado um desafio interessante: quantificar, por meio de um coeficiente que mede a distância entre o resultado final observado em ligas esportivas e o idealizado em competições equilibradas, a presença relativa de sorte e habilidade nos campeonatos.

Foram coletados e analisados todos os jogos de 198 ligas esportivas, compostas de 1503 temporadas, oriundas de 84 países diferentes em 4 esportes: basquete, futebol, voleibol e handebol.

Neste post, trazemos uma entrevista com Raquel sobre o seu estudo.

Do que se tratava o trabalho?

Raquel: Meu objetivo com este trabalho foi estudar a influência da sorte e da habilidade em campeonatos de quatro modalidades esportivas: vôlei, basquete, futebol e handebol. Com o coeficiente proposto, eu dividi os campeonatos em dois grupos:

  • Torneios em que a sorte é o principal componente;
  • Torneios em que a habilidade é o principal componente.

A partir daí, fiz a seguinte pergunta: Se a habilidade tem influência nos resultados, será que é possível estimá-la?

Então começou a segunda parte do meu trabalho, em que desenvolvi um modelo para tentar estimar essa habilidade a partir de características das equipes que estão disputando o campeonato. Contudo, esbarrei em um problema: dificuldade de obtenção de dados.

Pela falta de dados, você focou no basquete?

Raquel: Na segunda parte do trabalho, sim. Na primeira parte consegui mais dados, pois só precisava das tabelas com os resultados dos jogos. Em alguns sites de apostas consegui pegar esses resultados mais facilmente.

Agora, na segunda parte, como eu precisava de características dos jogadores, ficou mais difícil. Porque no futebol, por exemplo, nem sempre os salários são divulgados. Já no caso do handebol, os campeonatos não são tão famosos. Então seria mais difícil obter esse tipo de informação.

Por essas circunstâncias, na segunda parte só trabalhei com a NBA, campeonato em que o fator habilidade tinha uma grande influência. Pesquisei por características das equipes, como o salário dos jogadores e o PER, que é uma estatística que mede a eficiência dos atletas.

Usei também algumas outras features de um trabalho anterior do meu co-orientador, em que ele media as conexões entre os jogadores. Se os jogadores de uma determinada equipe jogam juntos há muito tempo, isso se torna um fator que influencia positivamente na habilidade deste time.

Em suma, busquei por outras características e fiz um modelo bayesiano para tentar estimar a habilidade das equipes.


Leia também: Saiba como a NBA usa Big Data para otimizar a experiência do cliente


O que é um modelo bayesiano?

Raquel: No modelo bayesiano, temos informações a priori dos coeficiente e atualizamos este modelo com os dados. No meu modelo, havia um coeficiente para cada característica que estava trabalhando.

Depois, coloquei pesos a priori em cada uma dessas características e atualizei esses pesos do modelo a partir dos resultados das últimas cinco temporadas da NBA. Fiz cinco modelos no total, um para cada temporada.

Assim que o peso final do modelo foi obtido, pudemos estimar qual seria a habilidade das equipes da NBA naquela temporada. Foi feita uma correlação com a quantidade de jogos que cada equipe ganhou ao longo da temporada regular, obtendo uma correlação de 0.7.

Como foi criado o coeficiente?

Raquel: O coeficiente que usamos como baseline foi proposto por David Spiegelhalter, um professor da Universidade de Cambridge, porém só para o futebol. Além disso, esse coeficiente não era muito bem delimitado, pois variava de 0 a infinito e dependia muito da quantidade de jogos e de equipes, então não era muito comparável.

Portanto, usei esse coeficiente como base e fiz melhorias nele para poder comparar diferentes campeonatos com diferentes quantidade de equipes e de jogos, além de utilizá-lo também para outros esportes.

Quais foram os países incluídos na pesquisa?

Raquel: Trabalhei com todos os países presentes no site de apostas que têm mais de sete equipes e três temporadas.

Mapa mostrando de quais países são os campeonatos utilizados no estudo. Quanto mais azul no mapa, mais temporadas/campeonatos do país foram estudados

O que mais influencia em cada um dos esportes?

Raquel: O basquete é o que tem, em média, uma maior influência das habilidades das equipes. Em segundo e terceiro lugar temos, respectivamente, o vôlei e o futebol. Já o esporte mais influenciado pela sorte é o handebol.

Existem possíveis interpretações para explicar esses resultados. A primeira é que, no basquete e no vôlei, é preciso fazer uma longa sequência de pontos para vencer uma partida. Por esses esportes terem essas longas sequências, a habilidade da melhor equipe acaba se sobressaindo. É muito difícil, no basquete e no vôlei, uma equipe ganhar por pura sorte.

Já no futebol é um pouco diferente. Ele é muito volátil, a “zebra” aparece mais. A média está entre dois a três gols por partida, então se ela está empatada, pode ser que o pior time faça um gol e vença.

No handebol existe uma maior quantidade de gols que no futebol. Contudo, acredito que ele seja mais influenciado pela sorte por os campeonatos serem menores e não serem tão bem estabelecidos quanto no futebol ou no basquete, por exemplo.

Houve algum resultado curioso com o trabalho?

Raquel: Tem um resultado interessante que sempre uso como outlier (resultado extremo, muito diferente dos demais), ocorrido na temporada 2014/2015 do campeonato nacional de futebol da Argélia.

O coeficiente apontou um valor extremo, e imaginei que ele estivesse totalmente errado. Contudo, quando pesquisei sobre o campeonato descobri que, faltando cinco rodadas para o seu término, todos os times poderiam ser campeões. Até o último colocado! Mas, nesse mesmo torneio, havia acontecido uma tragédia: um jogador havia sido morto pela própria torcida, chegando a paralisar o campeonato.

Depois desse trágico evento, o campeonato ficou super equilibrado, chegando às cinco últimas rodadas com todos os times podendo ser campeões. Não sei a exata influência desse evento nos resultados, esse é um caso em que nosso coeficiente detecta como um torneio totalmente atípico. Não é nem sorte e nem habilidade nesse caso, é como se fosse um terceiro componente. Porque quando você tem um campeonato totalmente aleatório, ainda é esperada uma certa variabilidade entre a pontuação das equipes. Ali simplesmente não existia variabilidade na pontuação das equipes, elas eram extremamente parecidas.

Há outros resultados interessantes. Em alguns campeonatos em que a habilidade tinha forte influência, tentei identificar, por meio de simulações, quais e quantas equipes precisavam ser retiradas para tornar aleatórios esses torneios. Fiz isso justamente para identificar campeonatos dominados por uma ou duas equipes. Esse foi o caso, por exemplo, do Campeonato Espanhol, dominado por Barcelona e Real Madrid. Sem essas duas equipes ou, no máximo, uma terceira, o campeonato fica totalmente aleatório.

Já, por exemplo, no Brasileirão, é preciso tirar uma quantidade maior de times, cerca de cinco, para deixá-lo aleatório. Isso mostra que aqui o campeonato é um pouco mais equilibrado, em questão de habilidade, do que o Espanhol.

E a NBA é mais equilibrada ainda. É preciso tirar metade das equipes para deixá-la aleatória.


Leia também: Como soluções de Big Data podem ajudar atletas e esportistas?


Você vai apresentar seu trabalho no KDD, certo?

Raquel: Sim. O KDD (Conference on Knowledge Discovery and Data Mining) é uma conferência internacional que acontecerá agora em agosto no Canadá. É uma grande conferência de data mining e tem foco em aplicações que os participantes desenvolvem.

Pesquisa de Raquel na íntegra

Vídeo promocional da pesquisa

Principais fontes de dados usadas no trabalho

191
Add

Cientista de dados: que profissão é essa?

*Este artigo foi originalmente publicado em 27/01/16 e seu conteúdo foi atualizado e estendido em 03/07/2017

Processar, analisar, perceber. O Data Scientist, ou cientista de dados em português, é um profissional que ainda está em plena descoberta. Tanto do mercado, quanto de si mesmo.

Não basta dominar as ferramentas de análise de Big Data ou ser especialista na gestão de estatísticas complexas. É preciso mais.

O que fazer com o volume e a variedade de dados? O que eles significam? Como analisá-los em tempo real? O que isso pode gerar de negócios, conhecimento, melhorias, transformações? Todas essas perguntas apontam para o cientista de dados. 

E ainda é preciso tomar cuidado com a autoestima exagerada que ronda o mercado: muitos acham que têm esse perfil, mas não é bem assim. E eles não estão fazendo análise de dados, mas apenas amontoando essas informações. 

Siga o futuro 

Ainda em 2012 a Gartner, uma das maiores empresas de consultoria do mundo, já anunciava: o Brasil precisará de 500 mil pessoas capacitadas para trabalhar com Big Data. É a ponta de lança para os profissionais mais corajosos em desbravar um campo ainda em construção. 

São vagas para um profissional que precisa estar capacitado, tanto para usar as ferramentas que se desenvolvem à velocidade da luz, quanto para ter a noção do todo, do global, transformando em soluções os números e dados espalhados pelo mundo.

Qual é a formação do cientista de dados?

O cientista de dados não precisa ter sido criado e nascido na Tecnologia da Informação. No filme O Jogo da imitação (2014), vencedor de melhor roteiro adaptado do Oscar 2015, matemáticos, estatísticos e linguistas tentam quebrar o código da Enigma, máquina que criava o sistema de informação nazista.

Foi preciso uma equipe multidisciplinar para entender o que os números e dados recebidos diariamente diziam. É assim com a análise de dados. Geógrafos, estatísticos, cientistas sociais, jornalistas e também o cientista da computação são as muitas mãos que movem esse caldo denso de informações.

Contudo, é claro que certas formações, como Estatística, Ciência da Computação, Matemática e Ciências Econômicas pavimentam melhor o caminho de quem deseja se tornar um cientista de dados.

Baixe_aqui_seu_Ebook (3)

Habilidades necessárias

Para conseguir extrair valor dos dados e gerar insights que realmente impactem nos resultados de negócio, o cientista de dados precisa reunir habilidades tanto técnicas quanto de negócio. Eis algumas delas:

Data storytelling

O cientista de dados precisa ser um bom contador de histórias – isso mesmo! Os números e dados, por si só, não dizem nada. São um amontoado de informações que só fazem sentido quando conectadas e amparadas por conhecimento. É uma história com começo, meio e fim que dirá o que é tendência, o que é provável, o que é possível. 

Essa habilidade de transformar dados em elementos para narrativas visuais tem nome: data storytelling. Ela é essencial para que os insights gerados pela análise de dados tornem-se ações concretas de negócio.

Lembre-se que, na maioria das vezes, o “público” para o qual serão apresentados os resultados de um trabalho de Data Science não é composto de profissionais de TI ou desenvolvedores, por exemplo, mas de gestores de negócio que têm pouca familiaridade com termos técnicos.

Caso eles não entendam e/ou não enxerguem valor no que está sendo mostrado, dificilmente serão tomadas decisões a partir dos insights, por maior que seja seu potencial de business. Por isso, quanto mais visualizações e menos números, melhor.

Em seu blog, a OkCupid conta histórias muito interessantes por meio de data storytelling, como já mostramos neste artigo.

Data mining

Data mining, ou mineração de dados, é o processo de descobrir informações relevantes em grandes quantidades de dados armazenados, estruturados ou disponíveis em qualquer outro tipo de “depósito”. É um passo essencial para se adquirir conhecimento sobre a concorrência ou o seu próprio negócio ou produto.

Machine learning

Machine learning (ou aprendizado de máquina) refere-se a algoritmos e técnicas por meio dos quais os sistemas “aprendem”, de maneira autônoma, com cada uma das tarefas que realizam. Dessa forma, podemos dizer que o computador aperfeiçoa seu desempenho em determinada tarefa a cada vez que ela é realizada.

A capacidade de entender os diferentes modelos de aprendizado de máquina, quando e como utilizá-los com dados reais e mostrar o valor dos seus resultados é uma habilidade essencial de um data scientist.

É interessante acrescentar que machine learning já apresenta acurácia melhor que a humana em algumas tarefas. Temos como bons exemplos a Inteligência Artificial Carnegie Mellon, que venceu jogadores profissionais de Poker, e a IA AlphaGo, da Google, que superou o melhor jogador de Go do mundo.

Data preparation

Data preparation é o processo de coletar, limpar, normalizar, combinar, estruturar e organizar dados para análise. Ele é o passo inicial (e fundamental) para que o trabalho com Big Data seja bem-sucedido, uma vez que aumenta a qualidade dos dados – e, consequentemente, dos resultados com data mining. Dados “pobres”, de qualidade ruim, geram resultados incorretos e não-confiáveis ao fim do processo de uso das tecnologias de Data Science.

Interpretação contextual dos insights

E depois que tudo está analisado? E depois de saber o sexo, a cor, os hábitos deste ou daquele consumidor – de produtos ou de ideias? Destacamos aqui outra característica de quem trabalha com Big Data: a tomada de decisão. Contemplar os dados e ir além deles, traçando estratégias e conseguindo mostrar, com dados de experimentos de testes AB, por exemplo, que executar uma ação de forma diferente é melhor do que o processo atual.

Aqui entra também o conhecimento de negócio e compreensão contextual do cientista de dados, necessários para que os insumos gerados estejam alinhados tanto com a realidade da empresa quanto com a do mercado.


Leia também: Como se tornar um Gerente de Projetos de Big Data?


Ferramentas, linguagens e bibliotecas

Algumas das principais ferramentas que o cientista de dados usará em seu dia a dia para “desbravar” dados são:

  • Hadoop;
  • Pig;
  • Hive;
  • Spark;
  • MapReduce.

Quanto às linguagens de programação, é importante que o data scientist domine:

  • Python;
  • R;
  • SQL;
  • Scala.

Já em relação às bibliotecas de machine learning e deep learning que o cientista de dados tem à disposição para consulta, podemos citar:

  • Scikit (ML);
  • TensorFlow (DL);
  • Pytorch (DL);
  • Keras (DL);
  • Caffe (DL).

Leia também: O dicionário de Big Data


Obtendo qualificação

Há várias opções para quem deseja se qualificar em Data Science. Diplomas e certificados de pós-graduação fornecem estrutura, estágios, redes e qualificações acadêmicas reconhecidas para o seu currículo. Em contrapartida, essa alternativa exige também grande investimento de tempo e dinheiro.

Cursos online são mais baratos (isso quando não são gratuitos), curtos e direcionados. Eles dão ao aluno a praticidade e comodidade de serem feitos e finalizados no tempo dele. Contudo, esta opção requer organização, disciplina e autogestão por parte do aluno, para que seja bem feita.

Já conhece o curso de Data Science da Hekima?

Em função da crescente demanda por conteúdos com maior densidade técnica sobre o campo de Big Data, a Hekima lançou seu primeiro curso a distância – Data Science: do Dado à Tomada de Decisão

Se você está interessado em dar os primeiros passos para se tornar um cientista de dados, profissão tão valorizada (e rara!) no mercado, esse curso é perfeito para você. Fizemos um detalhado guia sobre os conceitos, processos e ferramentas que um data scientist precisa dominar!

Aprenda as Principais Técnicas de Data Science neste Passo a Passo para Iniciantes

  • Entenda qual é o processo de Data Science do início ao fim;
  • Compreenda os diferentes tipos de análise de dados (descritiva, exploratória, preditiva);
  • Aprenda a construir e avaliar modelos preditivos (Aprendizado de Máquina);
  • Descubra como contar histórias a partir de dados e envolver audiências (Storytelling);
  • Identifique oportunidades de carreira em Data Science.

As aulas já estão disponíveis na Udemy, maior plataforma para cursos virtuais, com mais de 11 milhões de alunos ao redor do mundo.

Inscreva-se agora clicando aqui ou na imagem abaixo.

rsz_email-mkt-equipe

87
Add

Big Data Business entre os melhores blogs de Big Data do mundo!

Nós da Hekima sabemos que Big Data não é um tema trivial. Por isso, há pouco mais de um ano começamos a produzir, aqui no Big Data Business, conteúdos que ajudam a demonstrar o valor e as diversas aplicações da Ciência de Dados.

A reputação do nosso blog foi sendo construída ao longo deste tempo – com a sua ajuda, leitor –, e o reconhecimento ao nosso trabalho de difusão e democratização do acesso ao conhecimento tem sido sensacional.

Uma relevante prova deste reconhecimento foi nos dada na última semana: o Big Data Business entrou no ranking dos 30 melhores blogs de Big Data do mundo (clique aqui para acessar a lista completa)!

A lista, feita pelo Feedspot (um dos principais agregadores de conteúdo do mundo), nos coloca ao lado de gigantes como Dell, Cloudera e Amazon Web Services. Além da presença no ranking já ser uma grande conquista em si, somos a única página, dentre as elencadas, que produz conteúdo totalmente em português.

Para a elaboração da lista de blogs, o Feedspot utilizou os seguintes critérios:

  • Reputação e ranqueamento no Google;
  • Influência e reputação nas redes sociais;
  • Qualidade e consistência dos artigos;
  • Avaliações do time editorial do Feedspot e de experts em Big Data.

Novamente, agradecemos a você e a todos os leitores que têm nos mostrado estarmos no caminho certo.

E, falando em listas, fizemos a nossa própria, com alguns dos principais artigos que já publicamos explorando o tema Big Data. Boa leitura!

60
Add

Perguntas certas, Big Data Analytics e os ganhos inimagináveis para o Varejo

Em um momento em que as tecnologias de Big Data Analytics proporcionam respostas mais fáceis, ágeis e completas, fazer as perguntas certas passou a ser o grande desafio dos varejistas. Neste artigo, mostraremos quais perguntas são essas e como elas podem se traduzir em ganhos de negócio.

47
6
okcupid

O que a OkCupid nos conta sobre amor e sexo por meio de visualização de dados e data storytelling

OkCupid é um dos principais sites/aplicativos de relacionamento do mundo – e deve muito de seu sucesso aos dados. Independentemente do que o usuário ou usuária deseja – seja encontrar sua alma gêmea ou apenas buscar alguém para esquentar sua noite –, a “mágica do algoritmo” está lá para ajudá-lo(a), da forma mais “científica e matemática” possível, a obter sucesso na intrépida jornada de descobrir outra pessoa com interesses similares.

22
3
big data e agricultura

Big Data é ótima ferramenta para a agricultura

*Este artigo foi originalmente publicado em 09/09/15 e seu conteúdo foi atualizado e estendido em 08/05/2017

Quando se pensa em tecnologia aplicada à agricultura, logo vem à cabeça insumos como fertilizantes ou agrotóxicos, biotecnologia ou máquinas mais eficientes para produção e manejo.

Mas não é só isso. Big Data tem atuado de forma tão ampla na agricultura que até o seu feijão com arroz de todos os dias já tem a influência dos dados.

53
3
telecomunicações

Big Data oferece múltiplas aplicações à indústria de telecomunicações

Como sabemos, Big Data é aliado dos mais variados setores. No mercado de telecomunicações não seria diferente. As pessoas estão conectadas 24 horas por dia, com a tecnologia móvel fornecendo e/ou sendo meio de cada vez mais serviços – de redes sociais à internet das coisas.

No meio dessa ultraconectividade, as empresas de telecom precisam saber como tirar vantagem do rastro de informações que os usuários deixam pelo caminho. Com um volume diversificado de dados, que viajam através de suas redes, elas podem otimizar o serviço ofertado, aprimorar a experiência do cliente, se tornarem mais competitivas e aumentar seus lucros, como você verá neste artigo.

117
1
indústria automobilística

Big Data: combustível que acelera a indústria automobilística

Haverá um tempo (em breve) em que o modelo de motorista representado pelo personagem da Disney, o Pateta, furioso, atrás de um carro de qualidade duvidosa em um congestionamento enorme, estará totalmente obsoleto. A possibilidade de fugir dos congestionamentos por meio da criação de rotas alternativas, em um veículo eficiente e inteligente, já é possível.

Também é possível que a indústria que constrói esse carro saiba mais sobre o mercado e sobre o seu cliente. Essa evolução do setor automobilístico tem uma razão: Big Data.

23
7