Odds
Si possono usare gli xG per pronosticare le partite di calcio ?
In questo articolo, cercheremo di capire cosa sono i goal attesi, utilizzare gli xG per predire le partite di calcio e, infine, analizzare il modello creato dal duo Mark Dixon e Stuart Coles dell'Università di Lancaster, nel Nord-Ovest dell'Inghilterra.
Gli scommettitori sportivi, almeno quelli che aspirano a fare di più che un semplice passatempo, sono da tempo familiari con il concetto di speranza, e più precisamente con l'idea di valore atteso.
Le scommesse sono vincenti e perdenti, ma ciò che accade è in gran parte una conseguenza della fortuna.
Tuttavia, a lungo termine, la conoscenza del valore atteso permette allo scommettitore di stimare ciò che può aspettarsi di vincere su un campione più ampio di scommesse. Il termine "speranza" non è altro che un altro modo per dire "media aritmetica" o "media".
Più recentemente, il concetto di speranza ha fatto il suo ingresso nel calcio attraverso la nozione di goal attesi, o xG. I goal attesi sono utilizzati come misura di performance per valutare le prestazioni delle squadre e dei giocatori di calcio attribuendo una probabilità a un'occasione da goal che può tradursi in un goal.
Questa probabilità è calcolata utilizzando i dati storici delle occasioni equivalenti e il tasso di conversione dei goal. Così, l'xG per un'occasione da goal sarà compreso tra 1 e 0.
Inoltre, la somma degli xG in una partita con un certo numero di occasioni da goal darà l'xG per la partita stessa, o più comunemente, l'xG per ogni squadra in una partita.
In teoria, l'xG offre una rappresentazione più fedele della qualità del gioco delle squadre in una partita e della superiorità di una squadra rispetto a un'altra, rispetto ai goal reali.
I goal sono segnati con un certo grado di fortuna (ciò che i statistici chiamano "rumore"), e l'uso di un punteggio reale per prevedere ciò che una squadra potrebbe fare nella sua prossima partita potrebbe essere meno affidabile rispetto all'uso del suo xG.
In un certo senso, i goal sono come le vincite e le perdite nelle scommesse, mentre i goal attesi sono come il valore atteso. Se è così, possiamo usare gli xG al posto dei goal per prevedere il risultato delle partite di calcio e realizzare un profitto?
Goal contro xG
Il matematico e autore di "Soccermatics": Mathematical Adventures in the Beautiful Game", David Sumpter, ha fornito alcune indicazioni sull'utilità relativa dei goal rispetto agli xG quando si tratta di prevedere il risultato delle partite future. Sumpter illustra sinteticamente la difficoltà di trovare un segnale di previsione dai dati relativi ai goal.
"Dal punto di vista statistico, il risultato di una partita di calcio è quasi tanto rumore quanto segnale. Una spiegazione matematica di questo fenomeno può essere trovata direttamente nella distribuzione di Poisson. I goal nel calcio sono distribuiti secondo una legge di Poisson e le squadre segnano in media circa 1,4 goal. La varianza e la media sono uguali nella distribuzione di Poisson. La deviazione standard è quindi la radice quadrata di 1,4, ossia 1,18. Il rumore (1,18) è quindi solo leggermente inferiore al segnale (1,4)".
L'xG, d'altra parte, è una misura delle occasioni create, e offre quindi una misura migliore della qualità di una squadra durante una partita rispetto ai goal.
Contiene generalmente meno rumore e più segnale. Per i goal e per gli xG, la quantità di rumore nei risultati delle partite diminuisce man mano che aumenta il numero di partite studiate. Tuttavia, il tasso di diminuzione è inizialmente più alto per gli xG che per i goal.
Sumpter utilizza queste informazioni per raccomandare il tipo di dati su cui dovremmo concentrarci quando cerchiamo di fare previsioni sulle partite future. Per una o due partite, è il rapporto di partita stesso a fornire le informazioni più utili.
D'altra parte, per campioni di oltre 15 partite, o la maggior parte di una mezza stagione, i dati sui goal saranno potenzialmente altrettanto affidabili quanto gli xG.
Il rumore sarà sempre un po' più grande, ma la differenza è minima. Inoltre, i goal rappresentano la realtà - ciò che è successo - mentre l'xG è un modello probabilistico delle possibilità di segnare. Se è impreciso, potrebbe in effetti rivelarsi meno affidabile dei dati relativi ai goal.
Tra questi due estremi si trova un'area affascinante dal punto di vista dell'uso dell'xG come strumento di previsione. Sumpter afferma che il rapporto xG sarà più utile tra tre e sei partite, mentre tra sette e 15 partite, un confronto tra i goal e l'xG potrebbe rivelarsi più saggio.
Per questo articolo, ho costruito un modello di previsione xG che utilizza le ultime sei partite giocate da una squadra per valutare se può essere utilizzato per generare un profitto sulle scommesse.
Il modello del duo Dixon-Coles
L'approccio più documentato in materia di previsione delle partite di calcio è stato pubblicato da Mark Dixon e Stuart Coles (dell'Università di Lancaster) nel Journal of Applied Statistics nel 1997.
Conosciuto senza sorpresa come modello Dixon-Coles, sviluppa il concetto di forza dell'attacco e della difesa confrontando il numero di goal segnati e subiti da ogni squadra con le medie del campionato su un certo numero di partite precedenti.
Questi dati vengono poi utilizzati per stimare il numero previsto di goal che ogni squadra segnerà nella sua prossima partita.
Infine, la distribuzione di Poisson viene utilizzata per calcolare le probabilità dei singoli goal, con il numero previsto di goal che rappresenta la media della distribuzione. Pinnacle ha pubblicato un articolo descrivendo la metodologia.
Qui, ho adattato il modello per utilizzare gli xG invece dei goal, calcolando le forze dell'attacco e della difesa sulla base delle ultime sei partite in casa o in trasferta. Il mio insieme di dati comprendeva partite giocate in prima divisione inglese, francese, tedesca, italiana e spagnola durante le stagioni 2015/16 a 2019/20.
Le probabilità previste per i risultati in casa, i pareggi e i risultati in trasferta sono state convertite in quote di scommesse implicite eque, quindi confrontate con i prezzi di chiusura di Pinnacle.
Quando questi ultimi erano più alti, rappresentavano il valore teorico del modello di previsione. Le scommesse a valore aggiunto sono state poi confrontate con i risultati.
Il grafico sottostante presenta la serie temporale dei profitti realizzati sulle 7.795 opportunità di scommesse a valore aggiunto identificate dal modello, su un totale possibile di 18.006. Il profitto delle puntate piatte sul fatturato è del -5,0%. Questo dato è da confrontare con una perdita del -4,3% se ogni risultato delle 18.006 fosse stato puntato alla cieca su una puntata di una sola unità. Dato che il valore medio atteso per questo campione era del 38,9%, dire che si tratta di una sottoperformance sarebbe un eufemismo enorme.
Invalidità potenziale del modello
Il primo indizio del fallimento di questo modello risiede forse nel dato del valore medio atteso.
Con quote medie di 4,69, un dato di quasi il 40% per il valore medio atteso delle scommesse che rappresentano più di un terzo di tutte le opportunità possibili suggerisce fortemente un enorme divario nelle quote di scommesse implicite eque rispetto ai prezzi reali di Pinnacle.
Un grafico di correlazione tra i valori xG previsti dal modello e i valori xG reali registrati per il gioco previsto conferma questo punto.
C'è molto rumore; l'xG modellato non è particolarmente efficace nel prevedere con precisione l'xG reale di una squadra durante una partita.
La fonte del fallimento del modello è forse più difficile da identificare, poiché ci sono potenzialmente almeno quattro problemi. Innanzitutto, l'utilizzo di un modello Dixon-Coles per prevedere i punteggi del calcio può essere intrinsecamente errato. La distribuzione di Poisson che è al cuore di questo modello suppone che i goal segnati siano indipendenti, cioè che un goal non sia la causa di un altro goal.
Tuttavia, questa ipotesi non tiene conto dell'influenza della psicologia dei giocatori e delle squadre. Le squadre che vanno in svantaggio possono essere più motivate di quanto non fossero in precedenza per ristabilire l'equilibrio, mentre le squadre che pareggiano possono essere più motivate a continuare a progredire.
Che cos'è un buon ritorno sull'investimento nelle scommesse sportive ?
Se è così, l'idea che i goal siano segnati casualmente deve sicuramente essere messa in discussione.
Dixon e Coles stessi hanno segnalato che il loro modello di previsione originale sottostimava i risultati a basso punteggio (0-0, 1-0, 0-1 e 1-1). Per confermare questa constatazione, ho riorganizzato separatamente i miei dati xG previsti dal modello e i dati xG reali della partita, dal più basso al più alto, e li ho rappresentati sotto forma di una correlazione artificiale qui sotto (linea continua).
È chiaro che ci sono meno punteggi di basso xG di quanto il mio modello predica, mentre ci sono più punteggi di alto xG di quanto dovrebbero esserci (linea tratteggiata).
Ciò che Dixon e Coles hanno constatato per i goal sembra applicarsi anche all'xG, il che non è del tutto sorprendente dato che i goal e l'xG delle partite sono ben correlati su grandi campioni di dati.
Una seconda fonte di errore possibile sarà il modello xG stesso. Per il mio campione di dati, il totale dei goal segnati corrispondeva al 97,8% dei goal segnati durante le partite. Sebbene ciò sembri essere un buon risultato, è difficile sapere se questa differenza sia sufficiente per influenzare la validità di un modello di previsione dei goal segnati.
Cosa possono imparare gli scommettitori dalle partite di pre-stagione ?
Una terza fonte di errore può risiedere nella mia scelta del numero di partite recenti utilizzate per calcolare le forze dell'attacco e della difesa di Dixon-Coles.
Per le ragioni che ho esposto sopra nell'articolo, ho scelto sei partite. Forse un numero diverso, più alto o più basso, avrebbe dato risultati migliori.
Un tale cambiamento sarebbe relativamente facile da implementare, anche se richiederebbe una riprogettazione completa del modello, cosa che non farò qui.
Inoltre, le sei partite hanno ricevuto la stessa ponderazione. Dixon e Coles hanno riconosciuto che le partite più recenti dovrebbero forse ricevere più peso nel calcolo delle forze medie e hanno introdotto questa ponderazione nelle versioni successive del loro modello.
Anche questa è una caratteristica che potrei modellare io stesso, ma ho scelto di non farlo a causa della natura laboriosa del processo.
C'è un ultimo problema, forse più esistenziale, con il mio modello quando si tratta di cercare di fare profitti pronosticando partite di calcio.
Tutte le altre fonti di errore possibili messe da parte, anche un buon modello xG, molto migliore del mio, potrebbe non essere in grado di generare un profitto non casuale perché non è buono quanto il modello utilizzato dal bookmaker per stabilire le sue quote.
Dato che Dixon-Coles è un modello ben documentato e che l'xG è ormai una misura ampiamente utilizzata, è possibile che tutte le informazioni che un tale approccio previsionale apporta siano già incorporate nelle quote dei bookmaker.
Un esercizio di competenze relative
Le scommesse sportive assomigliano molto agli sport di competizione su cui si basano. Si tratta di una gara di competenze relative tra due o più parti, che si sfidano per vedere chi è il migliore a prevedere il futuro.
Più il pronosticatore è competente, più la sua valutazione delle probabilità di risultati reali (e quindi delle quote di scommesse) è affidabile e valida. Gli errori sono puniti con penalità finanziarie.
Pinnacle, senza dubbio il miglior bookmaker del settore in materia di analisi dei dati, dispone di modelli di previsione eccezionalmente affidabili, molto migliori dei miei. Sappiamo che Pinnacle ha clienti in grado di realizzare profitti non casuali, ma ho già accennato alla loro rarità.
Se Pinnacle rappresenta l'Aston Villa dei modelli di previsione, questi clienti esperti assomigliano più a Liverpool e Manchester City.
Certo, puoi avere un buon modello, forse un Reading o un Derby, abbastanza buono da fare pronostici decenti, ma non abbastanza buono in modo costante da battere i migliori modelli. Il mio modello probabilmente non si qualificherebbe nemmeno per la League Isthmian.
Quanto a sapere se l'xG può essere utilizzato efficacemente per guadagnare denaro sul mercato delle scommesse sul calcio, il problema è il seguente. Le quote fornite da un modello di previsione riflettono la qualità delle informazioni che contiene.
L'xG può effettivamente offrire una fonte di dati utile per costruire un modello di previsione, ma se Pinnacle incorpora già queste informazioni nel suo modello, oltre ad altre informazioni utili che io non possiedo, il mio modello di previsione non sarà più performante del loro.
Tutte le informazioni che i miei dati xG apportano alla tavola sono già integrate nelle loro quote. Si tratta di Canvey Island F.C. contro Aston Villa.
Se Pinnacle (e altri bookmaker) usa già i dati xG nei suoi modelli di previsione e di fissazione delle quote, il che è probabile dato che questi dati sono disponibili da molto tempo, ci si può chiedere se il mio uso di questi dati migliorerà ciò che stanno già facendo.
I dati xG possono quindi permettermi di realizzare profitti scommettendo sul calcio? Come per qualsiasi altra forma di analisi dei dati a scopi di scommesse, la risposta dipenderà da come li utilizzerai. E il modo in cui li utilizzerai dovrà essere migliore del modo in cui i bookmaker lo fanno attualmente.
Sabato 24 febbraio 2024
Nella stessa categoria
Odds
Gestione delle risorse finanziarie, la relazioni tra quote, vantaggio e varianza
Venerdì 10 gennaio 2025
In questo articolo, esamineremo concetti fondamentali per chiunque desideri gestire le proprie scommesse in modo strategico ed efficace. Affronteremo tre aspetti principali: la gestione delle risorse finanziarie nelle scommesse, la comprensione della vari...
Visualizzare l'articoloOdds
Come battere i bookmaker nel mercato Over/Under ?
Venerdì 8 novembre 2024
Sei un appassionato di calcio che cerca di migliorare le proprie possibilità nel mercato delle scommesse Over/Under? Comprendere le strategie dei bookmaker e applicare un approccio basato sui dati può darti un vantaggio decisivo. In questa guida ti mostre...
Visualizzare l'articoloOdds
Applicazione del Sistema di Valutazione Elo alle Scommesse sul Calcio
Lunedì 7 ottobre 2024
Il sistema di valutazione Elo, progettato inizialmente per valutare il livello dei giocatori di scacchi, è stato adattato a vari sport e ora è ampiamente utilizzato nel calcio per confrontare le prestazioni delle squadre. Utilizzando questo metodo, è poss...
Visualizzare l'articolo