Modelagem Estatística e de Aprendizado de Máquina: Previsão do Campeonato Brasileiro Série A 2017

Hugo Santana; Paulo Henrique Ferreira; Anderson Ara; Francisco Louzada; Adriano Kamimura Suzuki

Autores

Hugo Santana Universidade Federal da Bahia
Paulo Henrique Ferreira Universidade Federal da Bahia
Anderson Ara Universidade Federal da Bahia
Francisco Louzada Universidade de São Paulo
Adriano Kamimura Suzuki Universidade de São Paulo

Palavras-chave:

aprendizado de máquina, distribuição de Poisson, futebol, previsão

Resumo

Prever o resultado de uma partida de futebol depende de diversos fatores um tanto imprevisíveis. Inúmeras vezes, equipes com grandes investimentos e jogadores de alto nível são derrotadas por equipes consideradas menores e que não possuem jogadores tão renomados. É de interesse de muitos, saber quantos gols serão marcados numa partida ou ainda, ser capaz de acertar qual será o placar final de um jogo. Este trabalho está dividido em duas partes. A primeira parte refere-se a uma modelagem de classificação atemporal e utiliza as técnicas de regressão logística politômica, máquinas de vetores suporte e florestas aleatórias para estimar as probabilidades de cada resultado possível (Vitória Mandante, Empate ou Vitória Visitante) dos jogos do Campeonato Brasileiro de Futebol Série A 2017. Nota-se, no entanto, que o modelo obtido utilizando a técnica de florestas aleatórias apresentou previsões de má qualidade (Brier Score = 0,7706). A segunda parte remete a uma modelagem de regressão temporal, com o intuito de estimar o número de gols marcados por cada equipe numa partida, mais precisamente, de predizer qual será o placar final desse jogo, considerando a dependência serial dos jogos e a superdispersão, características comumente presentes em dados de futebol. O modelo Poisson Auto-Regressivo com Covariáveis Exógenas (PARX) foi utilizado para modelar o número de gols marcados pelas equipes. Observa-se que os modelos PARX apresentaram resultados satisfatórios, de acordo com diagnósticos feitos com o auxílio dos gráficos PIT e de calibração marginal. Os resultados preditivos foram similares aos obtidos com a aplicação das duas técnicas de classificação (regressão logística politômica e máquinas de vetores suporte).

Biografia do Autor

Hugo Santana, Universidade Federal da Bahia

Departamento de Estatística
Instituto de Matemática e Estatística
Paulo Henrique Ferreira, Universidade Federal da Bahia

Departamento de Estatística
Instituto de Matemática e Estatística
Anderson Ara, Universidade Federal da Bahia

Departamento de Estatística
Instituto de Matemática e Estatística
Francisco Louzada, Universidade de São Paulo

Departamento de Matemática Aplicada e Estatística
Instituto de Ciências Matemáticas e de Computação
Adriano Kamimura Suzuki, Universidade de São Paulo

Departamento de Matemática Aplicada e Estatística
Instituto de Ciências Matemáticas e de Computação

Modelagem Estatística e de Aprendizado de Máquina: Previsão do Campeonato Brasileiro Série A 2017

Autores

Palavras-chave:

Resumo

Biografia do Autor

Downloads

Publicado

Edição

Seção

Desenvolvido por

Idioma

Informações

Artigos mais recentes