Ce projet est né d’une question simple mais exigeante : peut-on battre les bookmakers à l’aide d’un modèle quantitatif construit seul, à partir de données publiques et d’Excel ?

Plutôt que de rester au niveau de l’intuition, j’ai mené une démarche complète et rigoureuse :

collecte et structuration des données,
construction d’un modèle probabiliste,
backtest sans fuite d’information future,
puis stress test statistique via simulation Monte Carlo.

📂 Télécharger le fichier Excel associé pour suivre le projet : Backtest modèle probabiliste paris sportifs

Objectif du projet

Les objectifs étaient clairs :

Construire un modèle prédictif à partir de statistiques d’équipes (buts marqués/encaissés, domicile/extérieur)
Transformer ces prédictions en probabilités via un modèle de Poisson
Comparer ces probabilités à celles implicites dans les cotes des bookmakers
Identifier des paris à espérance de gain positive (EV+)
Simuler l’évolution d’une bankroll à l’aide d’un backtest rigoureux

Rappel sur les cotes et la notion de valeur

Une cote représente une probabilité implicite :

Cote 2.00 → probabilité implicite ≈ 50% (1 / 2)
Cote 3.50 → probabilité implicite ≈ 28,57%

Les bookmakers appliquent volontairement une marge, ce qui rend l’espérance de gain négative pour la majorité des parieurs sur le long terme.

Un pari devient théoriquement intéressant lorsqu’il existe une value bet :
la probabilité estimée par le modèle est supérieure à celle implicite dans la cote se provoquer en cas de mauvaise estimation de la part du bookmaker ou d’un mouvement de marché résultant de la confrontation entre l’offre et la demande.

Méthodologie utilisée

1. Collecte et tri des données

Collecte des données sur le site FootballData, (données publiques au format CSV)

Périmètre du backtest :

5 saisons complètes de Premier League
Période : 2020/2021 → 2024/2025

Pour chaque match :

Date
Équipes
Score final
Cotes Pinnacle (1X2 et Over/Under 2.5)

Le bookmaker Pinnacle est réputé pour ses marges faibles et l’efficience de ses marchés, ce qui en fait une référence pertinente pour une simulation réaliste. efficient et les marges pratiquées sont faibles, les côtes de ce bookmaker sont donc très fiables pour effectuer une simulation.

2. Point critique : absence de fuite d’information future

Un principe fondamental a été respecté strictement :

Pour chaque match, seules les données disponibles avant ce match sont utilisées.

Concrètement :

Les statistiques sont recalculées match après match
Aucune moyenne de saison complète n’est utilisée tant que la saison n’est pas terminée
Aucune information future ne contamine le modèle

Ce point est crucial : beaucoup de backtests échouent précisément à cause de cette erreur méthodologique..

3. Modélisation

Forces offensives et défensives

Chaque équipe possède 4 forces distinctes :

Attaque à domicile
Défense à domicile
Attaque à l’extérieur
Défense à l’extérieur

Ces forces sont calculées sous forme de ratios par rapport à la moyenne du championnat.:

Force offensive :
Moyenne buts marqués à domicile équipe / Moyenne buts marqués à domicile championnat
Moyenne buts marqués à l’extérieur équipe / Moyenne buts marqués à l’extérieur championnat

Force défensive :
Moyenne buts concédés à domicile équipe / Moyenne buts concédés à domicile championnat
Moyenne buts concédés à l’extérieur équipe / Moyenne buts concédés à l’extérieur championnat

Concernant la force offensive, si le ratio est > à 1, cela signifie que l’équipe marque en moyenne d’avantage que la moyenne du championnat, ce qui va influencer le paramètre λ à la hausse.
A l’inverse, une équipe concédant moins de buts que la moyenne aura un ratio < à 1, et cette force défensive va influencer le paramètre λ de l’adversaire à la baisse.

Moyennes de buts dynamiques de la ligue

Les moyennes de buts de la ligue sont recalculées dynamiquement :

Moyenne buts domicile = Total buts marqués à domicile / Nombre de matchs
Moyenne buts extérieur = Total buts marqués à l’extérieur / Nombre de matchs

Ces moyennes évoluent à chaque match, garantissant l’absence d’utilisation de données futures.

Calcul des paramètres de Poisson (λ home / λ away)

À partir des forces et des moyennes de ligue, les paramètres λ (lambda) sont calculés .
Ces paramètres représentent le nombre moyen de buts attendus pour chaque équipe.

λ domicile =
Force attaque domicile (équipe A) × Force défense extérieur (équipe B) × Moyenne buts domicile ligue

λ extérieur =
Force attaque extérieur (équipe B) × Force défense domicile (équipe A) × Moyenne buts extérieur ligue

Probabilités des résultats

À partir de λ, on calcule les probabilités de chaque score possible à l’aide de la loi de Poisson :

P(X = k) = (λ^k × e^(-λ)) / k!

Cela permet ensuite d’obtenir :

Probabilité de victoire domicile
Probabilité de match nul
Probabilité de victoire extérieur
Probabilité Over / Under 2.5 buts

En agrégeant les probabilités de toutes les combinaisons cohérentes.

4. Stratégie de pari simulée

Bankroll initiale : 1000 unités (ou €)
Mise : 1% de la bankroll par pari
Un seul pari maximum par match
Pari uniquement si : EV > +10%

Calcul de l’Expected Value (EV)

EV = Probabilité modèle / Probabilité implicite bookmaker – 1

Exemple :

Probabilité modèle = 50%
Cote bookmaker = 2.40 → probabilité implicite ≈ 41,67%

EV = 0.50 / 0.4167 – 1 ≈ +20%

Théoriquement, une stratégie EV+ appliquée à grande échelle devrait générer un profit… si le modèle est réellement supérieur au marché.

Résultats du backtest

Sur l’ensemble des saisons :

Nombre de paris : 1382
Bankroll finale : 458

➡️ Perte de plus de 50% de la bankroll.

Stress test par simulation Monte Carlo

Pour tester la robustesse du modèle, j’ai appliqué une simulation Monte Carlo :

Les mêmes paris
Réordonnés aléatoirement
Simulés sur 30 trajectoires indépendantes

Résultats :

Bankroll moyenne finale : ~355 unités
Simulations gagnantes : 5%
Simulations catastrophiques (< 500 unités) : 75%

Interprétation

Les résultats sont clairs :

L’espérance mathématique est négative
Le modèle ne possède pas d’avantage structurel exploitable
Le marché de la Premier League est extrêmement efficient

Statistiquement, la stratégie est perdante dans plus de 95% des cas.

Conclusion

Ce projet ne montre pas comment gagner aux paris. Il démontre autre chose, bien plus précieux :

Capacité à construire un modèle complet de bout en bout
Compréhension réelle des biais statistiques
Maîtrise du backtesting rigoureux
Capacité à tester une hypothèse jusqu’à sa conclusion
Honnêteté intellectuelle face aux résultats

Ce projet prouve une chose essentielle :

Même une approche structurée, quantitative et disciplinée peut échouer face à des marchés hautement efficients.

La majorité des parieurs perdent parce qu’ils ne comprennent ni la variance, ni l’espérance de gain, ni la rigueur nécessaire. Mais ce projet montre aussi que même avec méthode, battre durablement ces marchés est extrêmement difficile.

Ce n’est pas un échec. C’est une démonstration de rigueur.

Les compétences développées ici sont directement transférables à :

l’investissement
la finance quantitative
l’analyse de données
la stratégie

Dans un monde saturé de promesses faciles, mener une démarche honnête jusqu’au bout est déjà un signal fort.

📂 Fichier associé : Backtest d’un modèle probabiliste paris sportifs
Projet réalisé et documenté par Florian Fargeix.