Odds
O xG pode ser usado para prever partidas de futebol ?
Neste artigo, tentaremos entender o que são gols esperados, usaremos os xGs para prever partidas de futebol e, por fim, analisaremos o modelo criado pela dupla Mark Dixon e Stuart Coles da Universidade de Lancaster, no noroeste da Inglaterra.
As apostas esportivas, pelo menos para aqueles que desejam tratá-las como algo mais do que um hobby recreativo, há muito tempo estão familiarizadas com o conceito de expectativa e, especificamente, com a ideia de valor esperado.
As apostas ganham e perdem, mas muito do que acontece é apenas uma consequência da sorte.
No entanto, a longo prazo, conhecer o valor esperado permite que o apostador calcule o que pode esperar ganhar em uma amostra maior de apostas. "Esperado" é apenas outra palavra para "média aritmética" ou "média".
Mais recentemente, o conceito de expectativa encontrou seu caminho no futebol por meio da noção de gols esperados, ou xG. Os gols esperados são usados como uma métrica de desempenho para avaliar o desempenho do time de futebol e do jogador, atribuindo uma probabilidade a uma oportunidade de gol que pode resultar em um gol.
Isso é calculado usando dados históricos de oportunidades equivalentes e a taxa de conversão de gols. Assim, o xG para uma oportunidade de gol ficará entre 1 e 0.
Além disso, a soma do xG em um jogo com um número de oportunidades de gol dará o xG para o jogo em si ou, mais comumente, o xG para cada equipe em um jogo.
Em teoria, o xG fornece uma representação mais verdadeira da qualidade de jogo das equipes em um jogo e da superioridade de uma equipe sobre a outra do que os gols reais.
Os gols são marcados com um grau razoável de sorte (o que os estatísticos chamam de "ruído"), e usar um placar real para prever o que uma equipe pode fazer no próximo jogo pode ser menos confiável do que usar seu xG.
De certa forma, os gols são como vitórias e derrotas nas apostas, enquanto os gols esperados são como o valor esperado. Se esse for o caso, podemos usar o xG em vez de gols para prever o resultado das partidas de futebol e obter lucro nas apostas ?
Gols versus xG
O matemático e autor de Soccermatics: Mathematical Adventures in the Beautiful Game (Aventuras matemáticas no belo jogo), David Sumpter, forneceu algumas orientações sobre a utilidade relativa de gols versus xG ao tentar prever o resultado de jogos futuros. Sumpter ilustra de forma sucinta a dificuldade de encontrar um sinal de previsão a partir dos dados de gols.
"Do ponto de vista estatístico, o resultado de uma partida de futebol é quase tanto ruído quanto sinal. Uma explicação matemática para isso pode ser encontrada diretamente na distribuição de Poisson. Os gols no futebol têm distribuição de Poisson e os times marcam cerca de 1,4 gol em média. A variância e a média são iguais na distribuição de Poisson. Portanto, o desvio padrão é a raiz quadrada de 1,4, que é 1,18. Assim, o ruído (1,18) é apenas ligeiramente menor do que o sinal (1,4)."
O xG, por outro lado, é uma medida de chances criadas e, portanto, oferece uma medida melhor da qualidade de uma equipe durante uma única partida do que os gols.
Normalmente, ele contém menos ruído e mais sinal. Tanto para os gols quanto para o xG, a quantidade de ruído nos resultados das partidas diminui à medida que o número de jogos estudados aumenta. No entanto, a taxa de redução é inicialmente mais acentuada para xG do que para gols.
Sumpter usa essas informações para recomendar em que tipo de dados devemos nos concentrar ao tentar fazer previsões de jogos futuros. Para uma ou duas partidas, é o próprio relatório da partida que fornece as informações mais úteis.
Por outro lado, para amostras de mais de 15 jogos, ou a maior parte de meia temporada, os dados de gols poderão ser tão confiáveis quanto o xG.
O ruído ainda será um pouco maior, mas a diferença é pequena. Além disso, os gols representam a realidade - o que aconteceu - enquanto o xG é um modelo probabilístico de chances de gol. Se for impreciso, ele pode realmente ser menos confiável do que os dados dos gols.
Entre esses extremos, há uma área interessante do ponto de vista da utilização do xG como uma ferramenta de previsão. Sumpter argumenta que o relatório de xG será mais útil entre três e seis jogos, enquanto que entre sete e 15 jogos pode ser melhor servido por uma comparação entre gols e xG.
Para este artigo, criei um modelo de previsão de xG que usou os seis jogos mais recentes disputados por uma equipe para avaliar se ele poderia ser usado para gerar lucro nas apostas.
Modelo de Dixon-Coles
A abordagem mais bem documentada para a previsão de jogos de futebol foi publicada por Mark Dixon e Stuart Coles (da Universidade de Lancaster) no Journal of Applied Statistics em 1997.
Sem surpresa, conhecido como modelo Dixon-Coles, ele desenvolve o conceito de força de ataque e defesa, comparando os gols marcados e sofridos por equipes individuais com as médias da liga em um número específico de jogos anteriores.
Em seguida, esses dados são usados para estimar o número esperado de gols que cada equipe marcará no próximo jogo.
Por fim, a distribuição de Poisson é usada para calcular as probabilidades de gols individuais, em que o número esperado de gols é a média da distribuição. A Pinnacle tem um artigo anterior que descreve a metodologia.
Aqui, adaptei o modelo para usar xG em vez de gols, calculando os pontos fortes do ataque e da defesa usando os seis jogos mais recentes em casa ou fora. Meu conjunto de dados incluiu jogos disputados nas divisões Premier inglesa, francesa, alemã, italiana e espanhola durante as temporadas de 2015/16 a 2019/20.
As probabilidades previstas para os resultados em casa, empate e fora foram convertidas em probabilidades de apostas justas implícitas e, em seguida, comparadas com os preços de fechamento da Pinnacle.
Quando os últimos eram mais longos, isso representava o valor teórico do modelo de previsão. As apostas de valor foram então comparadas com os resultados.
O gráfico abaixo mostra a série temporal de lucro das 7.795 oportunidades de apostas de valor identificadas pelo modelo, de um total possível de 18.006. O lucro das apostas simples sobre o volume de negócios foi de -5,0%. Isso se compara a uma perda de -4,3%, se cada resultado de 18.006 tivesse sido apostado às cegas em uma única unidade de aposta. Considerando que o valor médio esperado para essa amostra foi de 38,9%, dizer que isso é um desempenho abaixo do esperado seria um grande eufemismo.
Invalidade do modelo em potencial
Talvez a primeira pista do fracasso desse modelo esteja no próprio valor médio esperado.
Com probabilidades médias de 4,69, um valor de quase 40% para o valor médio esperado de apostas que constituem mais de um terço de todas as oportunidades possíveis sugeriria fortemente uma enorme variação nas probabilidades de apostas justas implícitas quando comparadas com os preços reais da Pinnacle.
Um gráfico de correlação entre os valores xG previstos do modelo e os valores xG reais registrados para o jogo previsto confirma o ponto.
Há muito ruído; o xG modelado não faz um trabalho particularmente bom em prever com precisão o xG real da partida de uma equipe.
A origem do fracasso do modelo pode ser mais difícil de identificar, pois há pelo menos quatro problemas potenciais. Em primeiro lugar, o uso de um modelo Dixon-Coles para prever os resultados do futebol pode ser inerentemente falho. A distribuição de Poisson no centro do modelo pressupõe que a marcação de gols é independente, ou seja, um gol não causa a marcação de outro.
No entanto, isso ignora a influência da psicologia do jogador e da equipe. As equipes que ficam atrás no placar podem ficar mais motivadas do que antes para reequilibrar a balança, enquanto as equipes que empatam podem ficar mais motivadas para seguir em frente.
O que é um bom ROI em apostas esportivas ?
Se esse for o caso, a ideia de que os gols são marcados aleatoriamente deve ser questionada.
Os próprios Dixon e Coles relataram que seu modelo de previsão original subnotificou resultados de placar baixo (0-0, 1-0, 0-1 e 1-1). Para confirmar essa descoberta, reordenei separadamente os dados de xG previstos pelo meu modelo e os dados de xG de jogos reais, do menor para o maior, e os plotei como uma correlação artificial abaixo (linha sólida).
Está claro que há menos pontuações reais de xG baixas do que o meu modelo está prevendo, enquanto há mais pontuações de xG altas do que deveria haver (a linha tracejada).
O que Dixon e Coles descobriram em relação aos gols também parece se aplicar ao xG, uma descoberta que não deixa de ser surpreendente, uma vez que os gols e o xG das partidas estão bem correlacionados em grandes amostras de dados.
Uma segunda possível fonte de erro será o próprio modelo xG. Para minha amostra de dados, o xG total foi 97,8% dos gols reais marcados nos jogos. Embora isso pareça uma boa combinação, é difícil saber se essa diferença pode ser suficiente para afetar a validade de um modelo de previsão de xG.
O que os apostadores podem aprender com os jogos da pré-temporada ?
Uma terceira fonte de erro pode estar na minha escolha do número de jogos recentes usados para calcular os pontos fortes de ataque e defesa do Dixon-Coles.
Pelos motivos que expus anteriormente neste artigo, escolhi seis jogos. Talvez um número diferente, maior ou menor, tivesse funcionado melhor.
Essa mudança seria relativamente fácil de implementar, embora fosse necessária uma nova execução completa do modelo, o que não farei aqui.
Além disso, todos os seis jogos receberam a mesma ponderação. Dixon e Coles reconheceram que os jogos mais recentes talvez devessem receber mais peso ao calcular a força média e introduziram essa ponderação em versões posteriores de seu modelo.
Mais uma vez, esse é um recurso que eu mesmo poderia modelar, mas dada a natureza demorada do processo, optei por não fazê-lo.
Há um problema final e possivelmente mais existencial com meu modelo na tentativa de obter lucro com a previsão de jogos de futebol.
Deixando de lado todas as outras possíveis fontes de erro, mesmo um bom modelo xG, muito melhor do que o meu, obviamente, pode não ser capaz de gerar um lucro não aleatório porque não é tão bom quanto o modelo que a casa de apostas está usando para compilar suas probabilidades.
Considerando que Dixon-Coles é um modelo bem documentado e que xG agora é uma métrica amplamente utilizada, é possível que todas as informações que essa abordagem de previsão traz já estejam incorporadas às probabilidades das casas de apostas.
Uma competição de habilidades relativas
As apostas esportivas são muito parecidas com os esportes competitivos nos quais se baseiam. Elas envolvem um concurso de habilidades relativas entre dois ou mais lados, competindo para ver quem é o melhor em prever o futuro.
Quanto melhor for a previsão, mais confiável e válida será sua avaliação das probabilidades de resultados reais (e, portanto, das probabilidades de apostas). Os erros são punidos com penalidades financeiras.
A Pinnacle, sem dúvida a melhor casa de apostas em análise de dados do mercado, terá modelos de previsão excepcionalmente confiáveis, muito melhores do que os meus. Sabemos que a Pinnacle tem clientes que podem obter lucros não aleatórios, mas já discuti anteriormente como isso pode ser raro.
Se a Pinnacle representa o Aston Villa dos modelos de previsão, esses clientes afiados são mais como o Liverpool e o Manchester City.
Claro, você pode ter um bom modelo, talvez um Reading ou um Derby, bom o suficiente para fazer previsões decentes, mas não consistentemente bom o suficiente para superar os melhores modelos. Meu modelo aqui provavelmente não se qualificaria nem mesmo para a Isthmian League.
Com relação ao fato de o xG poder ser efetivamente utilizado para ganhar dinheiro com um mercado de apostas em futebol, a questão é a seguinte. As probabilidades que um modelo de previsão oferece são um reflexo da qualidade das informações que o compõem.
O xG pode, de fato, oferecer um recurso de dados útil para construir um modelo de previsão, mas se a Pinnacle já estiver incorporando essas informações em seu próprio modelo, bem como outras informações úteis que eu não possuo, meu modelo de previsão não vai superar o deles.
Qualquer informação que meus dados de xG tragam para a mesa já está incorporada em suas probabilidades. É o Canvey Island F.C. contra o Aston Villa.
Se a Pinnacle (e, na verdade, outras casas de apostas) já estiver utilizando o xG em seus modelos de previsão e definição de probabilidades, o que é provável, dado o período de tempo em que os dados já estão amplamente disponíveis, é questionável se o meu uso desses dados melhorará o que eles já estão fazendo.
Então, os dados xG podem me permitir obter lucro com apostas em futebol? Como acontece com qualquer outra forma de análise de dados para fins de apostas, a resposta dependerá de como você os utiliza. E a forma como você a utiliza terá de ser melhor do que a utilizada atualmente pelas casas de apostas.
Sábado, 24 de fevereiro de 2024
Na mesma categoria
Odds
Gestão de banca - as relações entre probabilidades, vantagem e variância
Sexta-feira, 10 de janeiro de 2025
Neste artigo, vamos explorar conceitos fundamentais para quem deseja gerenciar suas apostas de forma estratégica e eficiente. Abordaremos três aspectos principais: a gestão de banca nas apostas, a compreensão da variância e as diferentes implicações de ba...
Ver o artigoOdds
Como vencer as casas de apostas no mercado Over/Under ?
Sexta-feira, 8 de novembro de 2024
Você é um fã de futebol que quer melhorar suas chances no mercado de apostas Over/Under? Entender as estratégias das casas de apostas e aplicar uma abordagem baseada em dados pode lhe dar uma vantagem. Neste guia, vamos mostrar um método de três etapas pa...
Ver o artigoOdds
Aplicação do Sistema de Classificação Elo nas Apostas de Futebol
Segunda-feira, 7 de outubro de 2024
O sistema de classificação Elo, inicialmente concebido para avaliar o nível dos jogadores de xadrez, foi adaptado para vários esportes e agora é amplamente utilizado no futebol para comparar o desempenho das equipes. Com este método, é possível identifica...
Ver o artigo