Backtest d’un modèle probabiliste appliqué aux paris sportifs.

Ce projet est né d’une question simple mais exigeante : peut-on battre les bookmakers à l’aide d’un modèle quantitatif construit seul, à partir de données publiques et d’Excel ?

Plutôt que de rester au niveau de l’intuition, j’ai mené une démarche complète et rigoureuse :

  • collecte et structuration des données,
  • construction d’un modèle probabiliste,
  • backtest sans fuite d’information future,
  • puis stress test statistique via simulation Monte Carlo.

Les objectifs étaient clairs :

  • Construire un modèle prédictif à partir de statistiques d’équipes (buts marqués/encaissés, domicile/extérieur)
  • Transformer ces prédictions en probabilités via un modèle de Poisson
  • Comparer ces probabilités à celles implicites dans les cotes des bookmakers
  • Identifier des paris à espérance de gain positive (EV+)
  • Simuler l’évolution d’une bankroll à l’aide d’un backtest rigoureux

Rappel sur les cotes et la notion de valeur

Une cote représente une probabilité implicite :

  • Cote 2.00 → probabilité implicite ≈ 50% (1 / 2)
  • Cote 3.50 → probabilité implicite ≈ 28,57%

Les bookmakers appliquent volontairement une marge, ce qui rend l’espérance de gain négative pour la majorité des parieurs sur le long terme.

Un pari devient théoriquement intéressant lorsqu’il existe une value bet :
la probabilité estimée par le modèle est supérieure à celle implicite dans la cote se provoquer en cas de mauvaise estimation de la part du bookmaker ou d’un mouvement de marché résultant de la confrontation entre l’offre et la demande.

1. Collecte et tri des données

Collecte des données sur le site FootballData, (données publiques au format CSV)

Périmètre du backtest :

  • 5 saisons complètes de Premier League
  • Période : 2020/2021 → 2024/2025

Pour chaque match :

  • Date
  • Équipes
  • Score final
  • Cotes Pinnacle (1X2 et Over/Under 2.5)

Le bookmaker Pinnacle est réputé pour ses marges faibles et l’efficience de ses marchés, ce qui en fait une référence pertinente pour une simulation réaliste. efficient et les marges pratiquées sont faibles, les côtes de ce bookmaker sont donc très fiables pour effectuer une simulation.


2. Point critique : absence de fuite d’information future

Un principe fondamental a été respecté strictement :

Pour chaque match, seules les données disponibles avant ce match sont utilisées.

Concrètement :

  • Les statistiques sont recalculées match après match
  • Aucune moyenne de saison complète n’est utilisée tant que la saison n’est pas terminée
  • Aucune information future ne contamine le modèle

Ce point est crucial : beaucoup de backtests échouent précisément à cause de cette erreur méthodologique..


3. Modélisation

  • Forces offensives et défensives

Chaque équipe possède 4 forces distinctes :

  • Attaque à domicile
  • Défense à domicile
  • Attaque à l’extérieur
  • Défense à l’extérieur

Ces forces sont calculées sous forme de ratios par rapport à la moyenne du championnat.:

Force offensive :
Moyenne buts marqués à domicile équipe / Moyenne buts marqués à domicile championnat
Moyenne buts marqués à l’extérieur équipe / Moyenne buts marqués à l’extérieur championnat

Force défensive :
Moyenne buts concédés à domicile équipe / Moyenne buts concédés à domicile championnat
Moyenne buts concédés à l’extérieur équipe / Moyenne buts concédés à l’extérieur championnat


Concernant la force offensive, si le ratio est > à 1, cela signifie que l’équipe marque en moyenne d’avantage que la moyenne du championnat, ce qui va influencer le paramètre λ à la hausse.
A l’inverse, une équipe concédant moins de buts que la moyenne aura un ratio < à 1, et cette force défensive va influencer le paramètre λ de l’adversaire à la baisse.


  • Moyennes de buts dynamiques de la ligue

Les moyennes de buts de la ligue sont recalculées dynamiquement :

  • Moyenne buts domicile = Total buts marqués à domicile / Nombre de matchs
  • Moyenne buts extérieur = Total buts marqués à l’extérieur / Nombre de matchs

Ces moyennes évoluent à chaque match, garantissant l’absence d’utilisation de données futures.


  • Calcul des paramètres de Poisson (λ home / λ away)

À partir des forces et des moyennes de ligue, les paramètres λ (lambda) sont calculés .
Ces paramètres représentent le nombre moyen de buts attendus pour chaque équipe.

λ domicile =
Force attaque domicile (équipe A) × Force défense extérieur (équipe B) × Moyenne buts domicile ligue

λ extérieur =
Force attaque extérieur (équipe B) × Force défense domicile (équipe A) × Moyenne buts extérieur ligue



  • Probabilités des résultats

À partir de λ, on calcule les probabilités de chaque score possible à l’aide de la loi de Poisson :

P(X = k) = (λ^k × e^(-λ)) / k!

Cela permet ensuite d’obtenir :

  • Probabilité de victoire domicile
  • Probabilité de match nul
  • Probabilité de victoire extérieur
  • Probabilité Over / Under 2.5 buts

En agrégeant les probabilités de toutes les combinaisons cohérentes.


4. Stratégie de pari simulée

  • Bankroll initiale : 1000 unités (ou €)
  • Mise : 1% de la bankroll par pari
  • Un seul pari maximum par match
  • Pari uniquement si : EV > +10%

Calcul de l’Expected Value (EV)

EV = Probabilité modèle / Probabilité implicite bookmaker – 1

Exemple :

  • Probabilité modèle = 50%
  • Cote bookmaker = 2.40 → probabilité implicite ≈ 41,67%

EV = 0.50 / 0.4167 – 1 ≈ +20%

Théoriquement, une stratégie EV+ appliquée à grande échelle devrait générer un profit… si le modèle est réellement supérieur au marché.


Sur l’ensemble des saisons :

  • Nombre de paris : 1382
  • Bankroll finale : 458

➡️ Perte de plus de 50% de la bankroll.

Stress test par simulation Monte Carlo

Pour tester la robustesse du modèle, j’ai appliqué une simulation Monte Carlo :

  • Les mêmes paris
  • Réordonnés aléatoirement
  • Simulés sur 30 trajectoires indépendantes

Résultats :

  • Bankroll moyenne finale : ~355 unités
  • Simulations gagnantes : 5%
  • Simulations catastrophiques (< 500 unités) : 75%

Interprétation

Les résultats sont clairs :

  • L’espérance mathématique est négative
  • Le modèle ne possède pas d’avantage structurel exploitable
  • Le marché de la Premier League est extrêmement efficient

Statistiquement, la stratégie est perdante dans plus de 95% des cas.

Ce projet ne montre pas comment gagner aux paris. Il démontre autre chose, bien plus précieux :

  • Capacité à construire un modèle complet de bout en bout
  • Compréhension réelle des biais statistiques
  • Maîtrise du backtesting rigoureux
  • Capacité à tester une hypothèse jusqu’à sa conclusion
  • Honnêteté intellectuelle face aux résultats



Ce projet prouve une chose essentielle :

Même une approche structurée, quantitative et disciplinée peut échouer face à des marchés hautement efficients.

La majorité des parieurs perdent parce qu’ils ne comprennent ni la variance, ni l’espérance de gain, ni la rigueur nécessaire. Mais ce projet montre aussi que même avec méthode, battre durablement ces marchés est extrêmement difficile.

Ce n’est pas un échec. C’est une démonstration de rigueur.

Les compétences développées ici sont directement transférables à :

  • l’investissement
  • la finance quantitative
  • l’analyse de données
  • la stratégie

Dans un monde saturé de promesses faciles, mener une démarche honnête jusqu’au bout est déjà un signal fort.