Odds
¿Se puede utilizar xG para predecir partidos de fútbol?
En este artículo, intentaremos entender qué son los goles esperados, utilizaremos los xG para predecir partidos de fútbol y, por último, analizaremos el modelo creado por el dúo Mark Dixon y Stuart Coles de la Universidad de Lancaster, en el noroeste de Inglaterra.
Las apuestas deportivas, al menos para quienes aspiran a tratarlas como algo más que un pasatiempo recreativo, están familiarizadas desde hace tiempo con el concepto de expectativa y, en concreto, con la idea de valor esperado.
Las apuestas ganan y pierden, pero gran parte de lo que ocurre es consecuencia de la suerte.
A largo plazo, sin embargo, conocer el valor esperado permite al apostante estimar lo que puede esperar ganar en una muestra más amplia de apuestas. Esperado" no es más que otra palabra para "media aritmética" o "promedio".
Más recientemente, el concepto de expectativa ha encontrado su camino en el fútbol a través de la noción de goles esperados, o xG. Los goles esperados se utilizan como una métrica de rendimiento para evaluar el rendimiento de los equipos y jugadores de fútbol mediante la asignación de una probabilidad a una oportunidad de gol que puede resultar en un gol.
Esto se calcula utilizando datos históricos de oportunidades equivalentes y la tasa de conversión de goles. Así, la xG para una oportunidad de gol estará entre 1 y 0.
Además, sumando la xG en un partido con un número de oportunidades de gol dará la xG para el partido en sí, o más comúnmente, la xG para cada equipo en un partido.
En teoría, la xG proporciona una representación más fiel de la calidad del juego de los equipos en un partido, y de la superioridad de un equipo sobre otro, que los goles reales.
Los goles se marcan con un cierto grado de suerte (lo que los estadísticos llaman "ruido"), y utilizar un marcador real para predecir lo que un equipo podría hacer en su próximo partido podría ser menos fiable que utilizar su xG.
En cierto sentido, los goles son como las victorias y las derrotas en las apuestas, mientras que los goles esperados son como el valor esperado. Si este es el caso, ¿podemos utilizar xG en lugar de goles para predecir el resultado de los partidos de fútbol y obtener beneficios en las apuestas?
Goles frente a xG
El matemático y autor de Soccermatics: Mathematical Adventures in the Beautiful Game David Sumpter ha proporcionado algunas orientaciones sobre la utilidad relativa de los goles frente a la xG cuando se intenta pronosticar el resultado de partidos futuros. Sumpter ilustra sucintamente la dificultad de encontrar una señal de previsión a partir de los datos de los goles.
"Desde un punto de vista estadístico, el resultado de un partido de fútbol tiene casi tanto de ruido como de señal. Una explicación matemática de esto puede encontrarse directamente en la distribución de Poisson. Los goles en el fútbol tienen una distribución de Poisson y los equipos marcan aproximadamente 1,4 goles de media. La varianza y la media son iguales en la distribución de Poisson. Por lo tanto, la desviación típica es la raíz cuadrada de 1,4, que es 1,18. Así, el ruido (1,18) es sólo ligeramente menor que la señal (1,4)".
xG, por el contrario, es una medida de las ocasiones creadas, y por lo tanto ofrece una mejor medida de la calidad de un equipo durante un solo partido que los goles.
Normalmente contiene menos ruido y más señal. Tanto para los goles como para la xG, la cantidad de ruido en los resultados de los partidos disminuye a medida que aumenta el número de partidos estudiados. Sin embargo, la tasa de disminución es inicialmente más pronunciada para xG que para los goles.
Sumpter utiliza esta información para recomendar en qué tipo de datos debemos centrarnos cuando intentemos hacer previsiones de partidos futuros. Para uno o dos partidos, es el propio informe del partido el que proporciona la información más útil.
Por otro lado, para muestras de más de 15 partidos, o la mayor parte de media temporada, los datos de goles serán potencialmente tan fiables como xG.
El ruido seguirá siendo un poco mayor, pero la diferencia es pequeña. Además, los goles representan la realidad, lo que ocurrió, mientras que la xG es un modelo probabilístico de las ocasiones de gol. Si es inexacto, puede resultar menos fiable que los datos de los goles.
Entre estos extremos se encuentra un área apasionante desde el punto de vista de la utilización de la xG como herramienta de previsión. Sumpter sostiene que el informe xG será más útil entre tres y seis partidos, mientras que entre siete y 15 partidos podría ser más útil una comparación entre goles y xG.
Para este artículo, he creado un modelo de predicción de xG que utiliza los últimos seis partidos jugados por un equipo para evaluar si puede utilizarse para obtener beneficios en las apuestas.
Modelo Dixon-Coles
Mark Dixon y Stuart Coles (de la Universidad de Lancaster) publicaron en 1997 en el Journal of Applied Statistics el método más documentado para predecir partidos de fútbol.
Este modelo, conocido como modelo Dixon-Coles, desarrolla el concepto de fuerza ofensiva y defensiva comparando los goles marcados y encajados por cada equipo con las medias de la liga en un número determinado de partidos anteriores.
A partir de ahí, se calcula el número de goles que cada equipo marcará en su próximo partido.
Por último, se utiliza la distribución de Poisson para calcular las probabilidades de goles individuales, donde el número esperado de goles es la media de la distribución. Pinnacle tiene un artículo anterior en el que se describe la metodología.
Aquí, he adaptado el modelo para utilizar xG en lugar de goles, calculando las fuerzas de ataque y defensa utilizando los seis partidos más recientes en casa o fuera. Mi conjunto de datos incluyó partidos jugados en las divisiones Premier inglesa, francesa, alemana, italiana y española durante las temporadas 2015/16 a 2019/20.
Las probabilidades pronosticadas para los resultados de local, empate y visitante se convirtieron en cuotas de apuestas justas implícitas y, a continuación, se compararon con los precios de cierre de Pinnacle.
Cuando estos últimos eran superiores, representaban el valor teórico del modelo de predicción. A continuación, se compararon las apuestas de valor con los resultados.
El siguiente gráfico muestra la serie temporal de beneficios de las 7.795 oportunidades de value bet identificadas por el modelo, de un total posible de 18.006. El beneficio de las apuestas planas sobre el volumen de negocios fue del -5,0%. Esto se compara con una pérdida del -4,3%, si cada resultado de 18.006 se hubiera apostado a ciegas a una apuesta unitaria. Dado que el valor medio esperado para esta muestra fue del 38,9%, decir que se trata de un logro insuficiente sería quedarse muy corto.
Posible invalidez del modelo
Quizá la primera pista del fracaso de este modelo se encuentre en la propia cifra del valor medio esperado.
Con cuotas medias de 4,69, una cifra de casi el 40% para el valor medio esperado de apuestas que suponen más de un tercio de todas las oportunidades posibles sugeriría fuertemente una enorme variación en las cuotas de apuestas justas implícitas cuando se comparan con los precios reales de Pinnacle.
Un gráfico de correlación entre los valores xG pronosticados del modelo y los valores xG reales registrados para el partido pronosticado confirma este punto.
Hay mucho ruido; el xG modelado no hace un trabajo particularmente bueno en predecir con exactitud el xG real del partido de un equipo.
El origen del fracaso del modelo puede ser más difícil de desentrañar, ya que potencialmente hay al menos cuatro problemas con él. En primer lugar, el uso de un modelo Dixon-Coles para predecir resultados de fútbol puede ser intrínsecamente defectuoso. La distribución de Poisson en la que se basa supone que los goles son independientes, es decir, que un gol no provoca otro.
Sin embargo, esto ignora la influencia de la psicología de los jugadores y del equipo. Los equipos que van por detrás en el marcador pueden estar más motivados que antes para restablecer el equilibrio, mientras que los equipos que empatan pueden estar más motivados para seguir adelante.
¿Qué es un buen ROI en las apuestas deportivas?
Si es así, la idea de que los goles entran al azar debe ser cuestionada.
Los propios Dixon y Coles informaron de que su modelo de pronóstico original infravaloraba los resultados con pocos goles (0-0, 1-0, 0-1 y 1-1). Para confirmar este hallazgo, he reordenado por separado los datos de xG pronosticados por mi modelo y los datos reales de xG del partido de menor a mayor, y los he representado como una correlación artificial a continuación (línea continua).
Está claro que hay menos goles xG bajos de los que mi modelo predice, mientras que hay más goles xG altos de los que debería haber (línea discontinua).
Lo que Dixon y Coles descubrieron en el caso de los goles también parece aplicarse a la xG, un hallazgo que no deja de sorprender dado que los goles y la xG de los partidos se correlacionan bien en grandes muestras de datos.
Una segunda posible fuente de error será el propio modelo xG. Para mi muestra de datos, el total de xG fue el 97,8% de los goles reales marcados en los partidos. Aunque parece una buena coincidencia, es difícil saber si esta diferencia podría ser suficiente para afectar a la validez de un modelo de predicción xG.
¿Qué pueden aprender los apostantes de los partidos de pretemporada?
Una tercera fuente de error puede estar en mi elección del número de partidos recientes utilizados para calcular las fuerzas de ataque y defensa de Dixon-Coles.
Por las razones que expuse anteriormente en el artículo, elegí seis partidos. Tal vez una cifra diferente, mayor o menor, habría funcionado mejor.
Tal cambio sería relativamente fácil de implementar, aunque necesitaría una nueva ejecución completa del modelo y eso no es algo que vaya a hacer aquí.
Además, los seis partidos han recibido la misma ponderación. Dixon y Coles reconocieron que los partidos más recientes quizás deberían recibir más peso a la hora de calcular las fuerzas medias, e introdujeron dicha ponderación en versiones posteriores de su modelo.
De nuevo, es una característica que podría modelar yo mismo, pero dada la naturaleza lenta del proceso, he optado por no hacerlo.
Hay un problema final, y posiblemente más existencial, con mi modelo al intentar obtener beneficios de la previsión de partidos de fútbol.
Aparte de todas las otras posibles fuentes de error, incluso un buen modelo xG, uno mucho mejor que el mío obviamente, puede no ser capaz de proporcionar un beneficio no aleatorio porque no es tan bueno como el modelo que la casa de apuestas está utilizando para compilar sus probabilidades.
Dado que Dixon-Coles es un modelo bien documentado, y que xG es ahora una métrica ampliamente utilizada, es posible que toda la información que aporta un enfoque de previsión de este tipo ya esté incorporada en las cuotas de las casas de apuestas.
Un concurso de habilidades relativas
Las apuestas deportivas se parecen mucho a los deportes de competición en los que se basan. Se trata de un concurso de habilidades relativas entre dos o más partes, que compiten para ver quién es el mejor en predecir el futuro.
Cuanto mejor sea el pronosticador, más fiable y válida será su evaluación de las probabilidades reales de resultado (y, por tanto, las cuotas de las apuestas). Los errores se castigan con sanciones económicas.
Pinnacle, posiblemente la mejor casa de apuestas de análisis de datos del sector, tendrá modelos de predicción excepcionalmente fiables, mucho mejores que los míos. Sabemos que Pinnacle tiene clientes que pueden obtener beneficios no aleatorios, pero ya he comentado anteriormente lo raros que pueden ser.
Si Pinnacle representa el Aston Villa de los modelos de predicción, estos clientes avispados son más como el Liverpool y el Manchester City.
Claro, podrías tener un buen modelo, quizás un Reading o un Derby, lo suficientemente bueno como para hacer predicciones decentes, pero no lo suficientemente bueno de forma consistente como para batir a los mejores modelos. Mi modelo aquí probablemente ni siquiera se clasificaría para la Liga Ístmica.
En cuanto a si xG se puede utilizar eficazmente para ganar dinero en un mercado de apuestas de fútbol, la cuestión es la siguiente. Las probabilidades que ofrece un modelo de predicción son un reflejo de la calidad de la información que contiene.
xG puede ofrecer un recurso de datos útil para construir un modelo de predicción, pero si Pinnacle ya está incorporando esa información en su propio modelo, así como otra información útil que yo no poseo, mi modelo de predicción no va a superar al suyo.
Cualquier información que mis datos xG aporten ya está incorporada en sus cuotas. Es el Canvey Island F.C. contra el Aston Villa.
Si Pinnacle (y de hecho otras casas de apuestas) ya están utilizando xG en sus modelos de predicción y establecimiento de cuotas, lo cual es probable dado el tiempo que los datos llevan disponibles, es cuestionable que mi uso de dichos datos mejore lo que ellos ya están haciendo.
Entonces, ¿pueden los datos xG permitirme obtener beneficios de las apuestas de fútbol? Como con cualquier otra forma de análisis de datos con fines de apuestas, la respuesta dependerá de cómo los utilice. Y cómo lo utilice tendrá que ser mejor que la forma en que las casas de apuestas lo hacen actualmente.
Sábado, 24 de febrero de 2024
En la misma categoría
Odds
La verdad sobre la varianza
Sábado, 8 de marzo de 2025
En este artículo, intentaremos ver dónde se encuentra la ventaja mientras observamos los resultados netos en función del número de apuestas.Si solo fuera tan simple. ¿Cuántas veces has oído a un tipster atribuir una mala racha de resultados a la "mala var...
Ver el artículoOdds
¿Cómo medir el rendimiento y la verdadera habilidad en las apuestas deportivas?
Domingo, 26 de enero de 2025
Evidencia empírica y datos intuitivos en las apuestas: Los apostadores más expertos se basan en una combinación de datos empíricos e intuición para evaluar la incertidumbre y predecir resultados.¿Es el hándicap la mejor habilidad en las apuestas deportiva...
Ver el artículoOdds
¿Es la confianza algo bueno o malo en las apuestas?
Viernes, 24 de enero de 2025
La confianza desempeña un papel crucial en muchos aspectos de la vida, y las apuestas no son una excepción. Comprender su impacto puede determinar el éxito o el fracaso de tu estrategia de apuestas. La confianza puede motivar a los apostadores a persevera...
Ver el artículo