Prédiction de la consommation électrique nationale
Une solution d'IA prédisant la consommation électrique journalière de la France (en MW), du notebook d'exploration jusqu'à une API REST en production sur le cloud — avec ré-entraînement automatisé, monitoring et détection de dérive. Un projet MLOps complet : pas seulement un modèle, mais toute la chaîne qui le rend fiable et maintenable dans le temps.
Le problème
Anticiper la consommation électrique est un enjeu critique pour l'équilibrage du réseau. À partir des données publiques RTE éco2mix (2012–2024), j'ai construit un modèle capable de prédire la consommation moyenne d'une journée à partir de la seule date — en exploitant la saisonnalité, les cycles hebdomadaires, les jours fériés et l'historique récent.
Démarche Data Science
Côté données, 15 features construites : encodage cyclique (mois, jour de l'année, jour de la semaine en sin/cos), week-end, jours fériés français, lags (J-1, J-7, J-30, J-365) et moyennes glissantes (7 et 30 jours).
Sept approches comparées sur un découpage strictement temporel (train 2013–2021 / validation 2022 / test 2023–2024), toutes tracées dans MLflow pour une comparaison reproductible et auditable :
| Modèle | MAPE (test) |
|---|---|
| Baseline lag-1 | ~3,5 % |
| Decision Tree | ~2,8 % |
| Ridge Regression | ~2,5 % |
| KNN | ~2,2 % |
| ANN (MLP Keras) | ~2,1 % |
| Random Forest | ~1,9 % |
| XGBoost | ~1,8 % |
Mise en production — le cœur du projet
- API REST FastAPI : endpoints de prédiction (date unique, plage jusqu'à 365 jours), d'exploitation (
/health,/system, suivi de la qualité dans le temps), auth optionnelle par clé d'API, doc Swagger auto-générée. - Docker : image allégée dédiée à l'API (sans Keras/TensorFlow) pour tenir sur une petite instance ;
docker-composeorchestrant API + MLflow + Prometheus. - Déploiement AWS EC2 (t3.micro, eu-west-3) : 1 worker uvicorn, swap, IP fixe (Elastic IP), HTTPS via reverse proxy Caddy (Let's Encrypt). Pipeline de données sur S3 via rôle IAM d'instance — aucune clé statique.
Le pipeline GitLab CI/CD couvre tout le cycle de vie, ré-entraînement quotidien inclus, avec mise en prod conditionnée à un seuil de qualité (MAPE < 3 %) :
Maintenabilité & monitoring
- Détection de data drift via le PSI (Population Stability Index), rapport JSON archivé, branché en CI en mode alerting.
- Observabilité Prometheus : latence, volumétrie, codes HTTP par endpoint, métriques métier et système (RAM/CPU).
- Tests automatisés : smoke tests de l'API + test de charge Locust ; manifests Kubernetes (HPA) pour démontrer une cible scalable.
- Conformité RGPD documentée et exposée (
/rgpd) : aucune donnée personnelle (open data + variables calendaires).
Ce que ce projet démontre
La maîtrise du cycle de vie complet d'un modèle (données → modèle → API → cloud → monitoring → ré-entraînement) et un sens de l'ingénierie sous contrainte réelle : faire tourner toute une stack sur une instance à 1 Go de RAM, optimiser l'image Docker, sécuriser les accès cloud sans clés statiques. Le projet a aussi été piloté en mode agile (Scrum/Kanban, backlog, KPIs) avec des livrables formels (cadrage, plan de tests, runbook).