Ce qu'il faut retenir
- L'entraînement de GPT-4 a émis ~500 tonnes de CO2 — équivalent à 500 allers-retours Paris-New York
- L'inférence représente désormais 90%+ des émissions IA d'une entreprise utilisatrice (l'entraînement est ponctuel, l'inférence est continue)
- La CSRD impose de reporter les émissions liées à l'IA en scope 3 depuis l'exercice 2024 pour les grandes entreprises
- Des outils open source (CodeCarbon, ML CO2 Impact) permettent de mesurer l'empreinte de chaque inférence
- Les datacenters français (dont ceux d'Intelligence Privée) fonctionnent avec un mix électrique parmi les plus décarbonés d'Europe
L'empreinte carbone réelle des LLM : des chiffres qui interpellent
La publication en 2019 de l'étude « Energy and Policy Considerations for Deep Learning in NLP » (Strubell et al., UMass) a déclenché une prise de conscience dans la communauté IA : entraîner un grand modèle de NLP pouvait émettre autant de CO2 que cinq voitures sur toute leur durée de vie. Depuis, les modèles ont continué à croître en taille, mais aussi en efficacité — avec des résultats contrastés sur leur impact environnemental.
Les données disponibles sur les grands modèles
Les données publiées sur l'empreinte des grands modèles restent lacunaires — la plupart des acteurs considèrent ces informations comme sensibles. Quelques chiffres sont néanmoins disponibles ou estimés de manière crédible :
- GPT-3 (OpenAI, 2020) : environ 552 tonnes de CO2eq pour l'entraînement (source : Patterson et al., Google, 2021)
- GPT-4 (OpenAI, 2023) : estimé à 400-700 tonnes de CO2eq pour l'entraînement (estimations indépendantes, OpenAI n'a pas publié de données officielles)
- Llama 2 70B (Meta, 2023) : 539 tonnes de CO2eq (Meta a publié ces données dans son article de recherche)
- Mistral 7B (Mistral AI, 2023) : données non publiées mais estimées à quelques dizaines de tonnes pour l'entraînement initial
- BLOOM (BigScience, 2022) : 25 tonnes de CO2eq — beaucoup plus bas grâce à l'utilisation d'énergie nucléaire française pour l'entraînement sur le supercalculateur Jean Zay
La différence entre GPT-4 et BLOOM illustre l'impact décisif de la source d'énergie : même volume de calcul, émissions radicalement différentes selon que l'entraînement se fait au Texas ou en France.
Training vs inférence : comprendre les deux sources d'émissions
L'entraînement : un coût ponctuel mais massif
L'entraînement d'un grand modèle est une opération unique (ou rare) qui mobilise des milliers de GPU pendant des semaines ou des mois. Son empreinte carbone est concentrée dans le temps et peut être significativement réduite par le choix de l'énergie (nucléaire, renouvelable) et de la localisation géographique du datacenter.
Pour une entreprise utilisatrice qui fine-tune un modèle existant plutôt que de l'entraîner depuis zéro, le coût d'entraînement est proportionnellement bien plus faible : quelques heures à quelques jours de GPU, contre plusieurs mois pour un entraînement complet.
L'inférence : un coût récurrent et croissant
L'inférence — chaque requête envoyée au modèle — est l'activité continue. À l'échelle d'une entreprise qui traite des milliers ou des millions de requêtes par jour, l'empreinte cumulée de l'inférence dépasse rapidement celle de l'entraînement. Et contrairement à l'entraînement (ponctuel), l'inférence n'a pas de fin : elle s'accumule aussi longtemps que le système est utilisé.
Une requête à GPT-4 (modèle ~1 trillion de paramètres) consomme environ 0,001 à 0,01 kWh selon les estimations. À 100 000 requêtes par jour — volume modeste pour une grande entreprise — cela représente 100 à 1 000 kWh quotidiens, soit 36 à 360 MWh par an. Avec le mix électrique américain (~400g CO2/kWh), c'est 14 à 144 tonnes de CO2 par an, uniquement pour ce cas d'usage.
Calculer l'empreinte IA de son entreprise
La formule de base est simple : Émissions = Nombre de requêtes × kWh par requête × Facteur d'émission du mix électrique
En pratique, chaque terme de cette formule nécessite des données que vous devrez collecter ou estimer :
Étape 1 : inventorier vos usages IA
Listez tous vos systèmes IA en production : LLM (accès API ou on-premise), modèles de vision artificielle, systèmes de recommandation, outils analytiques ML. Pour chaque système, estimez le nombre mensuel de requêtes ou de prédictions.
Étape 2 : estimer la consommation par requête
Pour les APIs commerciales (OpenAI, Anthropic, Google), les prestataires ne publient généralement pas la consommation unitaire. Utilisez les estimations académiques : environ 0,001 à 0,01 kWh par requête pour les grands LLM, 0,0001 kWh pour les modèles plus petits. Pour vos déploiements on-premise, la consommation GPU est directement mesurable.
Étape 3 : appliquer le facteur d'émission
Le facteur d'émission dépend de la localisation du datacenter. Utilisez les données AIB (Association of Issuing Bodies) pour les facteurs européens par pays : France ~52g CO2/kWh, Allemagne ~400g, Pologne ~700g, Islande ~19g (géothermique). Pour les datacenters américains d'AWS/Azure/Google, les facteurs varient entre 200 et 600g selon la région.
Outils de mesure disponibles
CodeCarbon (open source, Python) est la bibliothèque de référence pour mesurer les émissions de code Python, y compris les entraînements et inférences ML. Elle s'intègre en quelques lignes dans votre code et exporte les données vers des tableaux de bord de suivi.
ML CO2 Impact (mlco2.github.io) est un calculateur en ligne qui estime les émissions d'un entraînement à partir de la durée, du type de hardware et de la localisation géographique.
Experiment Impact Tracker (Henderson et al.) offre un suivi plus fin des expériences ML avec intégration aux outils de MLOps existants.
Green Algorithms (algorithm.green) est un outil généraliste pour l'empreinte carbone des algorithmes computationnels, adapté aux calculs IA.
Stratégies de réduction de l'empreinte IA
Utiliser des modèles plus petits et spécialisés
L'une des stratégies les plus efficaces est de remplacer des appels à de très grands modèles généralistes par des modèles plus petits et spécialisés sur votre domaine. Un modèle de 7B paramètres fine-tuné sur vos données métier peut surpasser GPT-4 sur vos cas d'usage spécifiques tout en consommant 100x moins d'énergie par inférence. C'est le principe de la distillation et de la spécialisation des modèles.
Optimiser les prompts et les appels
Des prompts plus courts avec des instructions claires réduisent la longueur des séquences générées et donc la consommation. Des stratégies de caching (mémoriser les résultats de requêtes fréquentes et identiques) permettent d'éviter de recalculer des outputs déjà produits. La quantisation des modèles (INT8, INT4) réduit la mémoire et la consommation de calcul avec une dégradation limitée des performances.
Edge AI et inférence locale
Pour certains cas d'usage (traitement d'images, classification simple, NLP sur des textes courts), l'inférence locale sur CPU ou sur des puces dédiées (NPU) peut remplacer des appels cloud avec une empreinte bien moindre et une latence réduite. Les progrès en modèles légers (Mistral 7B, Phi-3 mini, LLaMA 3 8B) rendent cette option de plus en plus viable.
Choisir des datacenters à énergie décarbonée
La localisation du datacenter est le facteur le plus impactant sur l'empreinte carbone de l'inférence, à volume de calcul égal. La France, grâce à son mix électrique à dominante nucléaire, offre l'une des empreintes carbone les plus basses d'Europe pour les datacenters : environ 52g CO2/kWh contre 400g en Allemagne ou 700g en Pologne.
Reporting CSRD et IA : ce que vous devez déclarer
La directive CSRD (Corporate Sustainability Reporting Directive), applicable depuis l'exercice 2024 pour les grandes entreprises et progressivement étendue, impose un reporting ESG détaillé incluant les émissions de gaz à effet de serre scope 1, 2 et 3.
L'empreinte IA relève principalement du scope 2 pour les déploiements on-premise (consommation électrique propre) et du scope 3 catégorie 1 (achats et services) pour les APIs cloud. Elle doit être incluse dans le reporting carbone global de l'entreprise.
Les normes ESRS (European Sustainability Reporting Standards) publiées par l'EFRAG en 2023 prévoient une rubrique spécifique sur l'impact environnemental des systèmes numériques, incluant l'IA. Les auditeurs ESG s'attendent désormais à une méthodologie documentée pour la mesure et le reporting de l'empreinte IA.
Datacenters souverains et énergie verte
Les datacenters français présentent un double avantage pour l'IA d'entreprise : la souveraineté des données (hors portée du Cloud Act) et une empreinte carbone parmi les plus basses d'Europe grâce au mix électrique français.
OVHcloud, Scaleway et Outscale (Dassault Systèmes) affichent des PUE (Power Usage Effectiveness) compétitifs et des certifications énergétiques. Plusieurs datacenters français s'alimentent en énergie certifiée renouvelable via des contrats PPA (Power Purchase Agreements) avec des producteurs solaires ou éoliens français.
EDF propose depuis 2024 des offres d'électricité nucléaire certifiée pour les datacenters, permettant une traçabilité de l'origine bas-carbone de l'énergie utilisée — un argument valorisable dans le reporting CSRD.
Intelligence Privée : empreinte IA minimisée par design
En déployant vos LLM dans des datacenters français alimentés en énergie décarbonée, Intelligence Privée vous offre non seulement la souveraineté des données mais aussi une empreinte carbone significativement inférieure à celle des hyperscalers américains. Nos modèles ELODIE et KEVINA 32B sont optimisés pour l'efficacité computationnelle. Nous vous fournissons les données de consommation énergétique nécessaires à votre reporting CSRD.
IA souveraine et bas-carbone pour votre reporting ESG
Intelligence Privée vous accompagne dans la mesure, la réduction et le reporting de l'empreinte environnementale de votre IA. Datacenter France, énergie décarbonée, données de consommation pour votre CSRD.
Calculer l'empreinte de votre IA →Questions fréquentes sur l'empreinte carbone des LLM
L'empreinte de l'entraînement est-elle plus importante que celle de l'inférence pour une entreprise utilisatrice ?
Non, pour une entreprise qui utilise (et ne développe pas) des LLM. L'entraînement des modèles de fondation est réalisé une fois par le fournisseur. L'entreprise utilisatrice supporte uniquement l'empreinte de l'inférence — chaque requête envoyée au modèle. À volume d'utilisation significatif, l'inférence cumulée sur un an dépasse largement l'empreinte de l'entraînement d'un fine-tuning ponctuel.
Comment inclure l'IA dans mon bilan carbone scope 3 ?
Les dépenses en APIs IA cloud relèvent du scope 3 catégorie 1 (achats de biens et services). Utilisez la méthode dépenses-based (montant des achats × facteur d'émission par secteur) ou, de préférence, la méthode activité-based si vous pouvez obtenir les données de consommation énergétique auprès de votre fournisseur. La méthode activité-based (requêtes × kWh × facteur d'émission) est plus précise mais requiert que votre fournisseur publie sa consommation unitaire.
Existe-t-il des labels ou certifications pour une IA responsable sur le plan environnemental ?
En 2026, il n'existe pas encore de label IA vert standardisé en Europe. Le label Numérique Responsable (NR) français couvre les systèmes numériques en général. L'ADEME travaille sur une méthodologie de calcul de l'empreinte des services numériques incluant l'IA. Au niveau européen, le règlement sur l'efficacité énergétique des datacenters (révision en cours) pourrait créer un cadre de reporting standardisé applicable aux services IA hébergés.
Le fine-tuning d'un modèle existant est-il vraiment moins impactant que l'entraînement from scratch ?
Oui, de manière très significative. L'entraînement from scratch d'un LLM de 70B paramètres peut nécessiter plusieurs millions d'heures GPU. Un fine-tuning sur le même modèle pour un cas d'usage spécifique nécessite typiquement quelques centaines à quelques milliers d'heures GPU — 100 à 10 000 fois moins. C'est l'une des raisons pour lesquelles la stratégie de fine-tuning de modèles existants sur des données métier est à la fois économiquement et environnementalement préférable.
Comment comparer l'empreinte d'une requête LLM avec d'autres activités numériques ?
Une requête à un grand LLM (GPT-4, Claude Opus) consomme environ 0,001 à 0,01 kWh — 10 à 100 fois plus qu'une recherche Google (0,0001 kWh estimé). Un email avec pièce jointe consomme environ 0,00003 kWh. Une heure de streaming vidéo HD consomme environ 0,08 kWh. Une requête LLM est donc significativement plus consommatrice qu'une recherche web, mais reste bien en dessous d'une heure de streaming. La différence s'accumule à l'échelle des millions de requêtes quotidiennes des grandes organisations.