Modelagem Estatística e de Aprendizado de Máquina: Previsão do Campeonato Brasileiro Série A 2017

  • Hugo Santana Universidade Federal da Bahia
  • Paulo Henrique Ferreira Universidade Federal da Bahia
  • Anderson Ara Universidade Federal da Bahia
  • Francisco Louzada Universidade de São Paulo
  • Adriano Kamimura Suzuki Universidade de São Paulo
Palavras-chave: aprendizado de máquina, distribuição de Poisson, futebol, previsão

Resumo

Prever o resultado de uma partida de futebol depende de diversos fatores um tanto imprevisíveis. Inúmeras vezes, equipes com grandes investimentos e jogadores de alto nível são derrotadas por equipes consideradas menores e que não possuem jogadores tão renomados. É de interesse de muitos, saber quantos gols serão marcados numa partida ou ainda, ser capaz de acertar qual será o placar final de um jogo. Este trabalho está dividido em duas partes. A primeira parte refere-se a uma modelagem de classificação atemporal e utiliza as técnicas de regressão logística politômica, máquinas de vetores suporte e florestas aleatórias para estimar as probabilidades de cada resultado possível (Vitória Mandante, Empate ou Vitória Visitante) dos jogos do Campeonato Brasileiro de Futebol Série A 2017. Nota-se, no entanto, que o modelo obtido utilizando a técnica de florestas aleatórias apresentou previsões de má qualidade (Brier Score = 0,7706). A segunda parte remete a uma modelagem de regressão temporal, com o intuito de estimar o número de gols marcados por cada equipe numa partida, mais precisamente, de predizer qual será o placar final desse jogo, considerando a dependência serial dos jogos e a superdispersão, características comumente presentes em dados de futebol. O modelo Poisson Auto-Regressivo com Covariáveis Exógenas (PARX) foi utilizado para modelar o número de gols marcados pelas equipes. Observa-se que os modelos PARX apresentaram resultados satisfatórios, de acordo com diagnósticos feitos com o auxílio dos gráficos PIT e de calibração marginal. Os resultados preditivos foram similares aos obtidos com a aplicação das duas técnicas de classificação (regressão logística politômica e máquinas de vetores suporte).

Downloads

Não há dados estatísticos.

Biografia do Autor

Hugo Santana, Universidade Federal da Bahia

Departamento de Estatística

Instituto de Matemática e Estatística

Paulo Henrique Ferreira, Universidade Federal da Bahia

Departamento de Estatística

Instituto de Matemática e Estatística

Anderson Ara, Universidade Federal da Bahia

Departamento de Estatística

Instituto de Matemática e Estatística

Francisco Louzada, Universidade de São Paulo

Departamento de Matemática Aplicada e Estatística

Instituto de Ciências Matemáticas e de Computação

Adriano Kamimura Suzuki, Universidade de São Paulo

Departamento de Matemática Aplicada e Estatística

Instituto de Ciências Matemáticas e de Computação

Publicado
2020-05-31