Ce projet est né d’une question simple mais exigeante : peut-on battre les bookmakers à l’aide d’un modèle quantitatif construit seul, à partir de données publiques et d’Excel ?
Plutôt que de rester au niveau de l’intuition, j’ai mené une démarche complète et rigoureuse :
- collecte et structuration des données,
- construction d’un modèle probabiliste,
- backtest sans fuite d’information future,
- puis stress test statistique via simulation Monte Carlo.
📂 Télécharger le fichier Excel associé pour suivre le projet : Backtest modèle probabiliste paris sportifs
Objectif du projet
Les objectifs étaient clairs :
- Construire un modèle prédictif à partir de statistiques d’équipes (buts marqués/encaissés, domicile/extérieur)
- Transformer ces prédictions en probabilités via un modèle de Poisson
- Comparer ces probabilités à celles implicites dans les cotes des bookmakers
- Identifier des paris à espérance de gain positive (EV+)
- Simuler l’évolution d’une bankroll à l’aide d’un backtest rigoureux
Rappel sur les cotes et la notion de valeur
Une cote représente une probabilité implicite :
- Cote 2.00 → probabilité implicite ≈ 50% (1 / 2)
- Cote 3.50 → probabilité implicite ≈ 28,57%
Les bookmakers appliquent volontairement une marge, ce qui rend l’espérance de gain négative pour la majorité des parieurs sur le long terme.
Un pari devient théoriquement intéressant lorsqu’il existe une value bet :
la probabilité estimée par le modèle est supérieure à celle implicite dans la cote se provoquer en cas de mauvaise estimation de la part du bookmaker ou d’un mouvement de marché résultant de la confrontation entre l’offre et la demande.
Méthodologie utilisée
1. Collecte et tri des données
Collecte des données sur le site FootballData, (données publiques au format CSV)
Périmètre du backtest :
- 5 saisons complètes de Premier League
- Période : 2020/2021 → 2024/2025
Pour chaque match :
- Date
- Équipes
- Score final
- Cotes Pinnacle (1X2 et Over/Under 2.5)
Le bookmaker Pinnacle est réputé pour ses marges faibles et l’efficience de ses marchés, ce qui en fait une référence pertinente pour une simulation réaliste. efficient et les marges pratiquées sont faibles, les côtes de ce bookmaker sont donc très fiables pour effectuer une simulation.
2. Point critique : absence de fuite d’information future
Un principe fondamental a été respecté strictement :
Pour chaque match, seules les données disponibles avant ce match sont utilisées.
Concrètement :
- Les statistiques sont recalculées match après match
- Aucune moyenne de saison complète n’est utilisée tant que la saison n’est pas terminée
- Aucune information future ne contamine le modèle
Ce point est crucial : beaucoup de backtests échouent précisément à cause de cette erreur méthodologique..
3. Modélisation
- Forces offensives et défensives
Chaque équipe possède 4 forces distinctes :
- Attaque à domicile
- Défense à domicile
- Attaque à l’extérieur
- Défense à l’extérieur
Ces forces sont calculées sous forme de ratios par rapport à la moyenne du championnat.:
Force offensive :
Moyenne buts marqués à domicile équipe / Moyenne buts marqués à domicile championnat
Moyenne buts marqués à l’extérieur équipe / Moyenne buts marqués à l’extérieur championnat
Force défensive :
Moyenne buts concédés à domicile équipe / Moyenne buts concédés à domicile championnat
Moyenne buts concédés à l’extérieur équipe / Moyenne buts concédés à l’extérieur championnat
Concernant la force offensive, si le ratio est > à 1, cela signifie que l’équipe marque en moyenne d’avantage que la moyenne du championnat, ce qui va influencer le paramètre λ à la hausse.
A l’inverse, une équipe concédant moins de buts que la moyenne aura un ratio < à 1, et cette force défensive va influencer le paramètre λ de l’adversaire à la baisse.
- Moyennes de buts dynamiques de la ligue
Les moyennes de buts de la ligue sont recalculées dynamiquement :
- Moyenne buts domicile = Total buts marqués à domicile / Nombre de matchs
- Moyenne buts extérieur = Total buts marqués à l’extérieur / Nombre de matchs
Ces moyennes évoluent à chaque match, garantissant l’absence d’utilisation de données futures.
- Calcul des paramètres de Poisson (λ home / λ away)
À partir des forces et des moyennes de ligue, les paramètres λ (lambda) sont calculés .
Ces paramètres représentent le nombre moyen de buts attendus pour chaque équipe.
λ domicile =
Force attaque domicile (équipe A) × Force défense extérieur (équipe B) × Moyenne buts domicile ligue
λ extérieur =
Force attaque extérieur (équipe B) × Force défense domicile (équipe A) × Moyenne buts extérieur ligue
- Probabilités des résultats
À partir de λ, on calcule les probabilités de chaque score possible à l’aide de la loi de Poisson :
P(X = k) = (λ^k × e^(-λ)) / k!
Cela permet ensuite d’obtenir :
- Probabilité de victoire domicile
- Probabilité de match nul
- Probabilité de victoire extérieur
- Probabilité Over / Under 2.5 buts
En agrégeant les probabilités de toutes les combinaisons cohérentes.
4. Stratégie de pari simulée
- Bankroll initiale : 1000 unités (ou €)
- Mise : 1% de la bankroll par pari
- Un seul pari maximum par match
- Pari uniquement si : EV > +10%
Calcul de l’Expected Value (EV)
EV = Probabilité modèle / Probabilité implicite bookmaker – 1
Exemple :
- Probabilité modèle = 50%
- Cote bookmaker = 2.40 → probabilité implicite ≈ 41,67%
EV = 0.50 / 0.4167 – 1 ≈ +20%
Théoriquement, une stratégie EV+ appliquée à grande échelle devrait générer un profit… si le modèle est réellement supérieur au marché.
Résultats du backtest
Sur l’ensemble des saisons :
- Nombre de paris : 1382
- Bankroll finale : 458
➡️ Perte de plus de 50% de la bankroll.
Stress test par simulation Monte Carlo
Pour tester la robustesse du modèle, j’ai appliqué une simulation Monte Carlo :
- Les mêmes paris
- Réordonnés aléatoirement
- Simulés sur 30 trajectoires indépendantes
Résultats :
- Bankroll moyenne finale : ~355 unités
- Simulations gagnantes : 5%
- Simulations catastrophiques (< 500 unités) : 75%
Interprétation
Les résultats sont clairs :
- L’espérance mathématique est négative
- Le modèle ne possède pas d’avantage structurel exploitable
- Le marché de la Premier League est extrêmement efficient
Statistiquement, la stratégie est perdante dans plus de 95% des cas.
Conclusion
Ce projet ne montre pas comment gagner aux paris. Il démontre autre chose, bien plus précieux :
- Capacité à construire un modèle complet de bout en bout
- Compréhension réelle des biais statistiques
- Maîtrise du backtesting rigoureux
- Capacité à tester une hypothèse jusqu’à sa conclusion
- Honnêteté intellectuelle face aux résultats
Ce projet prouve une chose essentielle :
Même une approche structurée, quantitative et disciplinée peut échouer face à des marchés hautement efficients.
La majorité des parieurs perdent parce qu’ils ne comprennent ni la variance, ni l’espérance de gain, ni la rigueur nécessaire. Mais ce projet montre aussi que même avec méthode, battre durablement ces marchés est extrêmement difficile.
Ce n’est pas un échec. C’est une démonstration de rigueur.
Les compétences développées ici sont directement transférables à :
- l’investissement
- la finance quantitative
- l’analyse de données
- la stratégie
Dans un monde saturé de promesses faciles, mener une démarche honnête jusqu’au bout est déjà un signal fort.
📂 Fichier associé : Backtest d’un modèle probabiliste paris sportifs
Projet réalisé et documenté par Florian Fargeix.
