Odds
Peut-on utiliser les xG pour pronostiquer des matchs de football ?
Dans cet article, nous allons tenter de comprendre ce que sont les buts attendus, utiliser les xG pour prédire les matchs de football, et, enfin, analyser le modèle créé par le duo Mark Dixon et Stuart Coles de l'université de Lancaster, dans le Nord-Ouest de l'Angleterre.
Les paris sportifs, du moins pour ceux qui aspirent à en faire plus qu'un simple passe-temps, sont depuis longtemps familiarisés avec le concept d'espérance, et plus particulièrement avec l'idée de valeur attendue.
Les paris sont gagnants et perdants, mais ce qui se passe n'est en grande partie que la conséquence de la chance.
Toutefois, à plus long terme, la connaissance de la valeur attendue permet au parieur d'estimer ce qu'il peut s'attendre à gagner sur un échantillon plus large de paris. Le terme "espérance" n'est qu'un autre mot pour désigner la "moyenne arithmétique" ou la "moyenne".
Plus récemment, le concept d'espérance a fait son chemin dans le football à travers la notion de buts attendus, ou xG. Les buts attendus sont utilisés comme mesure de performance pour évaluer les performances des équipes et des joueurs de football en attribuant une probabilité à une occasion de marquer qui peut se traduire par un but.
Cette probabilité est calculée en utilisant les données historiques des occasions équivalentes et le taux de conversion des buts. Ainsi, le xG pour une occasion de but sera compris entre 1 et 0.
En outre, la somme des xG dans un match avec un certain nombre d'occasions de marquer un but donnera le xG pour le match lui-même, ou plus communément, le xG pour chaque équipe dans un match.
En théorie, le xG donne une représentation plus fidèle de la qualité du jeu des équipes dans un match et de la supériorité d'une équipe par rapport à une autre, que les buts réels.
Les buts sont marqués avec un certain degré de chance (ce que les statisticiens appellent le "bruit"), et l'utilisation d'un score réel pour prédire ce qu'une équipe pourrait faire lors de son prochain match pourrait être moins fiable que l'utilisation de son xG.
Dans un sens, les buts sont comme les gains et les pertes dans les paris, tandis que les buts attendus sont comme la valeur attendue. Si c'est le cas, pouvons-nous utiliser les xG au lieu des buts pour prédire le résultat des matchs de football et réaliser un profit ?
Buts contre xG
Le mathématicien et auteur de Soccermatics : Mathematical Adventures in the Beautiful Game, David Sumpter a donné quelques indications sur l'utilité relative des buts par rapport aux xG lorsqu'il s'agit de prévoir le résultat de matchs à venir. Sumpter illustre succinctement la difficulté de trouver un signal de prévision à partir des données relatives aux buts.
"D'un point de vue statistique, le résultat d'un match de football est presque autant un bruit qu'un signal. Une explication mathématique de ce phénomène peut être trouvée directement dans la distribution de Poisson. Les buts en football sont distribués selon une loi de Poisson et les équipes marquent environ 1,4 but en moyenne. La variance et la moyenne sont égales dans la distribution de Poisson. L'écart-type est donc la racine carrée de 1,4, soit 1,18. Le bruit (1,18) n'est donc que légèrement inférieur au signal (1,4)".
L'xG, en revanche, est une mesure des occasions créées, et offre donc une meilleure mesure de la qualité d'une équipe au cours d'un match que les buts.
Il contient généralement moins de bruit et plus de signal. Pour les buts comme pour les xG, la quantité de bruit dans les résultats des matches diminue à mesure que le nombre de matches étudiés augmente. Toutefois, le taux de diminution est initialement plus élevé pour les xG que pour les buts.
Sumpter utilise cette information pour recommander le type de données sur lesquelles nous devrions nous concentrer lorsque nous essayons de faire des prévisions sur les matchs à venir. Pour un ou deux matches, c'est le rapport de match lui-même qui fournit les informations les plus utiles.
D'un autre côté, pour des échantillons de plus de 15 matchs, ou la majeure partie d'une demi-saison, les données sur les buts seront potentiellement aussi fiables que le xG.
Le bruit sera toujours un peu plus important, mais la différence est minime. En outre, les buts représentent la réalité - ce qui s'est passé - alors que l'xG est un modèle probabiliste des chances de marquer. S'il est inexact, il peut en effet s'avérer moins fiable que les données relatives aux buts.
Entre ces deux extrêmes se trouve un domaine passionnant du point de vue de l'utilisation du xG comme outil de prévision. Sumpter affirme que le rapport xG sera le plus utile entre trois et six matches, tandis qu'entre sept et 15 matches, une comparaison entre les buts et l'xG pourrait s'avérer plus judicieuse.
Pour cet article, j'ai construit un modèle de prédiction xG qui utilise les six derniers matches joués par une équipe afin d'évaluer s'il peut être utilisé pour générer un profit sur les paris.
Le modèle du duo Dixon-Coles
L'approche la plus documentée en matière de prévision des matchs de football a été publiée par Mark Dixon et Stuart Coles (de l'université de Lancaster) dans le Journal of Applied Statistics en 1997.
Connu sans surprise sous le nom de modèle Dixon-Coles, il développe le concept de force de l'attaque et de la défense en comparant le nombre de buts marqués et encaissés par chaque équipe aux moyennes de la ligue sur un certain nombre de matchs précédents.
Ces données sont ensuite utilisées pour estimer le nombre attendu de buts que chaque équipe marquera lors de son prochain match.
Enfin, la distribution de Poisson est utilisée pour calculer les probabilités de buts individuels, le nombre de buts attendu étant la moyenne de la distribution. Pinnacle a publié un article décrivant la méthodologie.
Ici, j'ai adapté le modèle pour utiliser les xG au lieu des buts, en calculant les forces de l'attaque et de la défense sur la base des six derniers matchs à domicile ou à l'extérieur. Mon ensemble de données comprenait des matchs joués en première division anglaise, française, allemande, italienne et espagnole au cours des saisons 2015/16 à 2019/20.
Les probabilités prévues pour les résultats à domicile, les matchs nuls et les résultats à l'extérieur ont été converties en cotes de paris équitables implicites, puis comparées aux prix de clôture de Pinnacle.
Lorsque ces derniers étaient plus élevés, cela représentait la valeur théorique du modèle de prédiction. Les paris à valeur ajoutée ont ensuite été comparés aux résultats.
Le graphique ci-dessous présente la série chronologique des bénéfices réalisés sur les 7 795 opportunités de paris à valeur ajoutée identifiées par le modèle, sur un total possible de 18 006. Le bénéfice des mises plates sur le chiffre d'affaires est de -5,0 %. Ce chiffre est à comparer à une perte de -4,3 % si chaque résultat de 18 006 avait été misé à l'aveugle sur un enjeu d'une seule unité. Étant donné que la valeur moyenne attendue pour cet échantillon était de 38,9 %, dire qu'il s'agit d'une sous-performance serait un énorme euphémisme.
Invalidité potentielle du modèle
Le premier indice de l'échec de ce modèle réside peut-être dans le chiffre de la valeur moyenne attendue.
Avec des cotes moyennes de 4,69, un chiffre de près de 40 % pour la valeur moyenne attendue des paris qui représentent plus d'un tiers de toutes les opportunités possibles suggère fortement un énorme écart dans les cotes de paris équitables implicites par rapport aux prix réels de Pinnacle.
Un graphique de corrélation entre les valeurs xG prévues par le modèle et les valeurs xG réelles enregistrées pour le jeu prévu confirme ce point.
Il y a beaucoup de bruit ; le xG modélisé n'est pas particulièrement efficace pour prédire avec précision le xG réel d'une équipe lors d'un match.
La source de l'échec du modèle est peut-être plus difficile à identifier, car il y a potentiellement au moins quatre problèmes. Tout d'abord, l'utilisation d'un modèle Dixon-Coles pour prévoir les scores de football peut être intrinsèquement erronée. La distribution de Poisson qui est au cœur de ce modèle suppose que les buts marqués sont indépendants, c'est-à-dire qu'un but n'est pas la cause d'un autre but.
Or, cette hypothèse ne tient pas compte de l'influence de la psychologie des joueurs et des équipes. Les équipes qui prennent du retard peuvent être plus motivées qu'elles ne l'étaient auparavant pour rétablir l'équilibre, tandis que les équipes qui font match nul peuvent être plus motivées pour continuer à progresser.
Qu'est-ce qu'un bon retour sur investissement dans les paris sportifs ?
Si tel est le cas, l'idée que les buts sont marqués au hasard doit certainement être remise en question.
Dixon et Coles ont eux-mêmes signalé que leur modèle de prévision original sous-estimait les résultats à faible score (0-0, 1-0, 0-1 et 1-1). Pour confirmer cette constatation, j'ai réorganisé séparément mes données xG prédites par le modèle et les données xG réelles du match, du plus faible au plus élevé, et je les ai représentées sous la forme d'une corrélation artificielle ci-dessous (ligne continue).
Il est clair qu'il y a moins de scores de faible xG que ce que mon modèle prédit, alors qu'il y a plus de scores de haut xG qu'il ne devrait y en avoir (ligne en pointillés).
Ce que Dixon et Coles ont constaté pour les buts semble également s'appliquer à l'xG, ce qui n'est pas totalement surprenant étant donné que les buts et l'xG des matches sont bien corrélés sur de grands échantillons de données.
Une deuxième source d'erreur possible sera le modèle xG lui-même. Pour mon échantillon de données, le total des buts marqués correspondait à 97,8 % des buts marqués au cours des matchs. Bien que cela semble être un bon résultat, il est difficile de savoir si cette différence est suffisante pour affecter la validité d'un modèle de prédiction des buts marqués.
Que peuvent apprendre les parieurs des matchs de pré-saison ?
Une troisième source d'erreur peut résider dans mon choix du nombre de matches récents utilisés pour calculer les forces de l'attaque et de la défense de Dixon-Coles.
Pour les raisons que j'ai exposées plus haut dans l'article, j'ai choisi six matches. Peut-être qu'un chiffre différent, plus élevé ou plus bas, aurait donné de meilleurs résultats.
Un tel changement serait relativement facile à mettre en œuvre, même s'il nécessiterait une refonte complète du modèle, ce que je ne ferai pas ici.
En outre, les six jeux ont reçu la même pondération. Dixon et Coles ont reconnu que les jeux plus récents devraient peut-être recevoir plus de poids lors du calcul des forces moyennes et ont introduit cette pondération dans les versions ultérieures de leur modèle.
Il s'agit là encore d'une caractéristique que je pourrais modéliser moi-même, mais j'ai choisi de ne pas le faire en raison de la nature fastidieuse du processus.
Il existe un dernier problème, peut-être plus existentiel, avec mon modèle lorsqu'il s'agit d'essayer de faire des bénéfices en pronostiquant des matchs de football.
Toutes les autres sources d'erreur possibles mises à part, même un bon modèle xG, bien meilleur que le mien, peut ne pas être en mesure de générer un profit non aléatoire parce qu'il n'est pas aussi bon que le modèle utilisé par le bookmaker pour établir ses cotes.
Étant donné que Dixon-Coles est un modèle bien documenté et que le xG est désormais une mesure largement utilisée, il est possible que toutes les informations qu'une telle approche prévisionnelle apporte soient déjà incorporées dans les cotes des bookmakers.
Un exercice de compétences relatives
Les paris sportifs ressemblent beaucoup aux sports de compétition sur lesquels ils sont basés. Il s'agit d'un concours de compétences relatives entre deux ou plusieurs parties, qui s'affrontent pour savoir qui est le meilleur pour prédire l'avenir.
Plus le pronostiqueur est compétent, plus son évaluation des probabilités de résultats réels (et donc des cotes de paris) est fiable et valide. Les erreurs sont sanctionnées par des pénalités financières.
Pinnacle, sans doute le meilleur bookmaker du secteur en matière d'analyse de données, dispose de modèles de prédiction exceptionnellement fiables, bien meilleurs que les miens. Nous savons que Pinnacle a des clients capables de réaliser des profits non aléatoires, mais j'ai déjà évoqué leur rareté.
Si Pinnacle représente l'Aston Villa des modèles de prédiction, ces clients pointus ressemblent davantage à Liverpool et Manchester City.
Bien sûr, vous pouvez avoir un bon modèle, peut-être un Reading ou un Derby, suffisamment bon pour faire des pronostics décents, mais pas suffisamment bon en permanence pour battre les meilleurs modèles. Mon modèle ne se qualifierait probablement même pas pour la Ligue Isthmienne.
Quant à savoir si le xG peut être utilisé efficacement pour gagner de l'argent sur le marché des paris sur le football, le problème est le suivant. Les cotes fournies par un modèle de prédiction reflètent la qualité des informations qu'il contient.
xG peut en effet offrir une source de données utile pour construire un modèle de prédiction, mais si Pinnacle incorpore déjà ces informations dans son propre modèle, ainsi que d'autres informations utiles que je ne possède pas, mon modèle de prédiction ne sera pas plus performant que le leur.
Toutes les informations que mes données xG apportent à la table sont déjà intégrées à leurs cotes. Il s'agit de Canvey Island F.C. contre Aston Villa.
Si Pinnacle (et d'autres bookmakers) utilise déjà les données xG dans ses modèles de prédiction et de fixation des cotes, ce qui est probable étant donné que ces données sont largement disponibles depuis longtemps, on peut se demander si mon utilisation de ces données améliorera ce qu'ils font déjà.
Les données xG peuvent-elles donc me permettre de réaliser des bénéfices en pariant sur le football ? Comme pour toute autre forme d'analyse de données à des fins de paris, la réponse dépendra de la manière dont vous l'utiliserez. Et la façon dont vous l'utiliserez devra être meilleure que la façon dont les bookmakers le font actuellement.
Samedi 24 février 2024
Dans ma même catégorie
Odds
Gestion du capital - Les relations entre cote, avantage et variance
Vendredi 10 janvier 2025
Dans cet article, nous allons étudier des notions essentielles pour tout parieur souhaitant optimiser sa gestion financière et sa stratégie. Nous aborderons trois aspects fondamentaux : gérer son capital en tant que parieur, comprendre la variance et anal...
Voir l'articleOdds
Comment battre les bookmakers dans le marché des paris Over/Under ?
Vendredi 8 novembre 2024
Vous êtes un passionné de football et vous souhaitez optimiser vos paris dans le marché des paris Over/Under ? Comprendre les stratégies des bookmakers et adopter une approche analytique peut vous donner un avantage certain. Dans cet article, nous allons ...
Voir l'articleOdds
Application du système de notation Elo aux paris sur le football
Lundi 7 octobre 2024
Le système de notation Elo, initialement conçu pour évaluer le niveau des joueurs d’échecs, a été adapté à plusieurs sports et est désormais largement utilisé dans le football pour comparer la performance des équipes. Grâce à cette méthode, il est possibl...
Voir l'article