Análise e Discussão Dev (Conteúdo Técnico)

É possível mensurar a presença da sorte e da habilidade nos esportes?

0

Raquel Aoki, cientista de dados da Hekima, escolheu como tema para seu mestrado um desafio interessante: quantificar, por meio de um coeficiente que mede a distância entre o resultado final observado em ligas esportivas e o idealizado em competições equilibradas, a presença relativa de sorte e habilidade nos campeonatos.

Foram coletados e analisados todos os jogos de 198 ligas esportivas, compostas de 1503 temporadas, oriundas de 84 países diferentes em 4 esportes: basquete, futebol, voleibol e handebol.

Neste post, trazemos uma entrevista com Raquel sobre o seu estudo.

Do que se tratava o trabalho?

Raquel: Meu objetivo com este trabalho foi estudar a influência da sorte e da habilidade em campeonatos de quatro modalidades esportivas: vôlei, basquete, futebol e handebol. Com o coeficiente proposto, eu dividi os campeonatos em dois grupos:

  • Torneios em que a sorte é o principal componente;
  • Torneios em que a habilidade é o principal componente.

A partir daí, fiz a seguinte pergunta: Se a habilidade tem influência nos resultados, será que é possível estimá-la?

Então começou a segunda parte do meu trabalho, em que desenvolvi um modelo para tentar estimar essa habilidade a partir de características das equipes que estão disputando o campeonato. Contudo, esbarrei em um problema: dificuldade de obtenção de dados.

Pela falta de dados, você focou no basquete?

Raquel: Na segunda parte do trabalho, sim. Na primeira parte consegui mais dados, pois só precisava das tabelas com os resultados dos jogos. Em alguns sites de apostas consegui pegar esses resultados mais facilmente.

Agora, na segunda parte, como eu precisava de características dos jogadores, ficou mais difícil. Porque no futebol, por exemplo, nem sempre os salários são divulgados. Já no caso do handebol, os campeonatos não são tão famosos. Então seria mais difícil obter esse tipo de informação.

Por essas circunstâncias, na segunda parte só trabalhei com a NBA, campeonato em que o fator habilidade tinha uma grande influência. Pesquisei por características das equipes, como o salário dos jogadores e o PER, que é uma estatística que mede a eficiência dos atletas.

Usei também algumas outras features de um trabalho anterior do meu co-orientador, em que ele media as conexões entre os jogadores. Se os jogadores de uma determinada equipe jogam juntos há muito tempo, isso se torna um fator que influencia positivamente na habilidade deste time.

Em suma, busquei por outras características e fiz um modelo bayesiano para tentar estimar a habilidade das equipes.


Leia também: Saiba como a NBA usa Big Data para otimizar a experiência do cliente


O que é um modelo bayesiano?

Raquel: No modelo bayesiano, temos informações a priori dos coeficiente e atualizamos este modelo com os dados. No meu modelo, havia um coeficiente para cada característica que estava trabalhando.

Depois, coloquei pesos a priori em cada uma dessas características e atualizei esses pesos do modelo a partir dos resultados das últimas cinco temporadas da NBA. Fiz cinco modelos no total, um para cada temporada.

Assim que o peso final do modelo foi obtido, pudemos estimar qual seria a habilidade das equipes da NBA naquela temporada. Foi feita uma correlação com a quantidade de jogos que cada equipe ganhou ao longo da temporada regular, obtendo uma correlação de 0.7.

Como foi criado o coeficiente?

Raquel: O coeficiente que usamos como baseline foi proposto por David Spiegelhalter, um professor da Universidade de Cambridge, porém só para o futebol. Além disso, esse coeficiente não era muito bem delimitado, pois variava de 0 a infinito e dependia muito da quantidade de jogos e de equipes, então não era muito comparável.

Portanto, usei esse coeficiente como base e fiz melhorias nele para poder comparar diferentes campeonatos com diferentes quantidade de equipes e de jogos, além de utilizá-lo também para outros esportes.

Quais foram os países incluídos na pesquisa?

Raquel: Trabalhei com todos os países presentes no site de apostas que têm mais de sete equipes e três temporadas.

Mapa mostrando de quais países são os campeonatos utilizados no estudo. Quanto mais azul no mapa, mais temporadas/campeonatos do país foram estudados

O que mais influencia em cada um dos esportes?

Raquel: O basquete é o que tem, em média, uma maior influência das habilidades das equipes. Em segundo e terceiro lugar temos, respectivamente, o vôlei e o futebol. Já o esporte mais influenciado pela sorte é o handebol.

Existem possíveis interpretações para explicar esses resultados. A primeira é que, no basquete e no vôlei, é preciso fazer uma longa sequência de pontos para vencer uma partida. Por esses esportes terem essas longas sequências, a habilidade da melhor equipe acaba se sobressaindo. É muito difícil, no basquete e no vôlei, uma equipe ganhar por pura sorte.

Já no futebol é um pouco diferente. Ele é muito volátil, a “zebra” aparece mais. A média está entre dois a três gols por partida, então se ela está empatada, pode ser que o pior time faça um gol e vença.

No handebol existe uma maior quantidade de gols que no futebol. Contudo, acredito que ele seja mais influenciado pela sorte por os campeonatos serem menores e não serem tão bem estabelecidos quanto no futebol ou no basquete, por exemplo.

Houve algum resultado curioso com o trabalho?

Raquel: Tem um resultado interessante que sempre uso como outlier (resultado extremo, muito diferente dos demais), ocorrido na temporada 2014/2015 do campeonato nacional de futebol da Argélia.

O coeficiente apontou um valor extremo, e imaginei que ele estivesse totalmente errado. Contudo, quando pesquisei sobre o campeonato descobri que, faltando cinco rodadas para o seu término, todos os times poderiam ser campeões. Até o último colocado! Mas, nesse mesmo torneio, havia acontecido uma tragédia: um jogador havia sido morto pela própria torcida, chegando a paralisar o campeonato.

Depois desse trágico evento, o campeonato ficou super equilibrado, chegando às cinco últimas rodadas com todos os times podendo ser campeões. Não sei a exata influência desse evento nos resultados, esse é um caso em que nosso coeficiente detecta como um torneio totalmente atípico. Não é nem sorte e nem habilidade nesse caso, é como se fosse um terceiro componente. Porque quando você tem um campeonato totalmente aleatório, ainda é esperada uma certa variabilidade entre a pontuação das equipes. Ali simplesmente não existia variabilidade na pontuação das equipes, elas eram extremamente parecidas.

Há outros resultados interessantes. Em alguns campeonatos em que a habilidade tinha forte influência, tentei identificar, por meio de simulações, quais e quantas equipes precisavam ser retiradas para tornar aleatórios esses torneios. Fiz isso justamente para identificar campeonatos dominados por uma ou duas equipes. Esse foi o caso, por exemplo, do Campeonato Espanhol, dominado por Barcelona e Real Madrid. Sem essas duas equipes ou, no máximo, uma terceira, o campeonato fica totalmente aleatório.

Já, por exemplo, no Brasileirão, é preciso tirar uma quantidade maior de times, cerca de cinco, para deixá-lo aleatório. Isso mostra que aqui o campeonato é um pouco mais equilibrado, em questão de habilidade, do que o Espanhol.

E a NBA é mais equilibrada ainda. É preciso tirar metade das equipes para deixá-la aleatória.


Leia também: Como soluções de Big Data podem ajudar atletas e esportistas?


Você vai apresentar seu trabalho no KDD, certo?

Raquel: Sim. O KDD (Conference on Knowledge Discovery and Data Mining) é uma conferência internacional que acontecerá agora em agosto no Canadá. É uma grande conferência de data mining e tem foco em aplicações que os participantes desenvolvem.

Pesquisa de Raquel na íntegra

Vídeo promocional da pesquisa

Principais fontes de dados usadas no trabalho

Related Post

  • Bom dia pessoal. Gostaria do contato da Raquel, pois temos interesse em gravar um PodCast com ela sobre a pesquisa, como fazemos para estabelecer contato? Desde já agradecemos!

  • Excelente artigo, parabéns!

  • Gabriel Lima Gomes

    Primeiramente, meus parabéns muitooo bom seu trabalho.

    Uma dúvida, você fez um web crawler no site de apostas ou tem alguma opção de baixar os resultados dos jogos?

    • Raquel Aoki

      Obrigada!
      Eu fiz um crawler para pegar os resultados dos jogos.