Solution française • Hébergement souverain • Conformité européenne Blog IA souveraine

IA et RSE : bilan carbone des LLM, consommation énergétique et IA frugale pour les entreprises

L'intelligence artificielle générative bouleverse les pratiques RSE des entreprises sous deux angles opposés : elle peut être un puissant outil d'optimisation environnementale (optimisation logistique, simulation énergétique, reporting CSRD automatisé), mais elle génère elle-même une empreinte carbone considérable dont les entreprises doivent désormais rendre compte. Ce guide aide les directions RSE, DAF et DSI à mesurer, reporter et réduire l'empreinte environnementale de leurs LLM, dans le cadre du reporting CSRD/ESRS 2025-2026.

Ce qu'il faut retenir

  • L'entraînement d'un LLM comme GPT-4 émet autant de CO₂ que 500 vols Paris-New York
  • L'inférence représente 80-90% de l'empreinte carbone totale d'un LLM en production — c'est là que les décisions d'entreprise ont le plus d'impact
  • Le CSRD/ESRS E1 impose le reporting de l'empreinte numérique dès 2025 pour les grandes entreprises — l'IA est explicitement dans le périmètre
  • Des LLM plus petits et spécialisés peuvent atteindre 80-90% des performances avec 5-10% de l'empreinte des grands modèles
  • Choisir un fournisseur IA hébergé en France (énergie principalement nucléaire, PUE compétitifs) réduit l'intensité carbone par kWh de 5 à 10 fois versus un datacenter à base de charbon

L'empreinte carbone des LLM : la réalité chiffrée

La question de l'empreinte environnementale des LLM est passée de sujet de niche à préoccupation mainstream en 2024-2025. Les chiffres publiés dans la littérature académique et les rapports industriels sont parfois contradictoires, souvent mal interprétés, et toujours dépendants du mix énergétique du datacenter. Voici les ordres de grandeur fiables.

L'entraînement : une empreinte concentrée et mesurable

L'entraînement d'un LLM de grande taille est une opération unique (ou rare) qui consomme des ressources GPU considérables pendant des semaines à des mois. Les estimations publiées :

  • GPT-3 (175B paramètres) : ~552 tonnes CO₂ équivalent pour l'entraînement, dans un datacenter américain à mix énergétique moyen
  • GPT-4 : estimé à plusieurs milliers de tonnes CO₂eq (les chiffres exacts ne sont pas publiés par OpenAI)
  • Llama 3 70B (Meta) : ~290 tonnes CO₂eq selon l'estimation de Meta dans sa model card
  • Modèles 7B-13B (Mistral, Llama small) : 10 à 50 tonnes CO₂eq selon l'infrastructure

Pour donner de l'échelle : l'empreinte carbone d'un aller-retour Paris–New York en avion est d'environ 1,7 tonne CO₂eq par passager. L'entraînement de GPT-3 équivaut à environ 325 tels voyages.

552 tCO₂eq pour l'entraînement de GPT-3 (datacenter US moyen)
85%De l'empreinte totale LLM en production provient de l'inférence, pas de l'entraînement
1,7gCO₂eq par requête ChatGPT (estimation Hugging Face 2024)
10xDifférence d'intensité carbone entre datacenter France (nucléaire) et datacenter Pologne (charbon)

L'inférence : l'empreinte continue et scalable

Contrairement à l'entraînement (one-shot), l'inférence se produit à chaque requête utilisateur et représente 80 à 90% de l'empreinte carbone totale d'un LLM en production sur sa durée de vie. Une requête typique à un LLM comme GPT-4 consomme :

  • 0,001 à 0,01 kWh d'électricité selon la longueur du contexte et du modèle
  • 0,1 à 10g CO₂eq selon l'intensité carbone du datacenter

À l'échelle d'une entreprise de 500 collaborateurs faisant 50 requêtes par jour chacun : 25 000 requêtes/jour → entre 2,5 et 250 kg CO₂eq par jour selon le modèle et le datacenter. Sur un an, cela représente 0,9 à 91 tonnes CO₂eq — soit l'empreinte carbone de 0,5 à 45 Français sur une année entière.

Cycle de vie d'un LLM : où se concentre l'empreinte

Une analyse de cycle de vie (ACV) complète d'un LLM doit couvrir quatre phases :

  1. Fabrication du matériel : production des GPU (A100, H100) avec des matières rares et des processus énergivores. Un GPU H100 représente environ 150 kg CO₂eq de fabrication amortis sur sa durée de vie.
  2. Entraînement : l'étape la plus visible, mais souvent réalisée une seule fois par le fournisseur du modèle de base.
  3. Fine-tuning : une fraction de l'entraînement, généralement 0,1 à 1% de l'empreinte de l'entraînement initial.
  4. Inférence en production : l'étape continue, qui domine l'empreinte totale sur la durée de vie du système.

Pour les entreprises qui n'entraînent pas leurs propres modèles de base (la grande majorité), l'empreinte est concentrée sur le fine-tuning et surtout l'inférence. C'est là que les décisions d'architecture et de fournisseur ont le plus d'impact.

CSRD et ESRS : comment reporter l'impact IA de votre entreprise

Le cadre réglementaire

La directive CSRD (Corporate Sustainability Reporting Directive) et les normes ESRS (European Sustainability Reporting Standards) imposent aux grandes entreprises et PME cotées un reporting extra-financier détaillé. L'ESRS E1 (Changement climatique) couvre explicitement les émissions numériques, dont l'IA fait partie dans la catégorie "Scope 3 — utilisation des services numériques".

Le calendrier de déploiement :

  • 2025 : grandes entreprises (>500 salariés, exercice 2024 reporté)
  • 2026 : entreprises de taille moyenne (>250 salariés ou CA >40M€)
  • 2027 : PME cotées

Ce que vous devez reporter sur l'IA

L'ESRS E1 n'isole pas encore l'IA comme catégorie distincte, mais elle impose de reporter les émissions liées à l'ensemble de la chaîne numérique. En pratique, votre rapport CSRD devrait inclure :

IndicateurMéthode de calculSource de données
Consommation électrique des serveurs IA (kWh)Mesure directe (compteurs) ou estimation (PUE × puissance GPU)Fournisseur datacenter / facture énergie
Émissions Scope 2 (consommation propre)kWh × facteur d'émission du réseau nationalAIE, RTE pour la France
Émissions Scope 3 (services cloud IA tiers)Rapport environnemental fournisseur ou estimation par requêtesAzure / AWS / GCP environmental reports
PUE du datacenter utiliséDéclaration fournisseurContrat SLA datacenter
Part d'énergie renouvelableAttestations ou PPAs vertsFournisseur énergie / datacenter

Défis pratiques du reporting IA

Les entreprises utilisant des LLM via API (OpenAI, Azure, Google) se heurtent à un obstacle majeur : les fournisseurs ne communiquent pas par défaut la consommation électrique par client. Il faut soit utiliser leurs outils de calcul d'empreinte (Azure Carbon Dashboard, Google Cloud Carbon Footprint), soit appliquer des facteurs d'émission estimatifs par token/requête.

C'est un argument fort pour l'hébergement souverain : un LLM déployé sur votre propre infrastructure (ou chez un fournisseur transparent comme Intelligence Privée) offre une mesurabilité directe de la consommation électrique, conforme aux exigences ESRS E1 (voir aussi notre guide IA et reporting CSRD/ESG).

IA frugale : principes et bonnes pratiques pour réduire l'empreinte

L'IA frugale (ou Green AI) désigne l'ensemble des pratiques visant à maximiser la valeur générée par unité d'énergie consommée. Elle s'oppose à la tendance "bigger is better" qui a dominé 2020-2024 et reconnaît que les modèles les plus volumineux ne sont pas toujours les plus adaptés pour chaque usage.

Principe 1 — Right-sizing : utiliser le bon modèle pour la bonne tâche

La règle d'or : le modèle le plus petit capable de réaliser la tâche avec la qualité requise est toujours le plus vertueux écologiquement. Un modèle 7B fine-tuné sur votre domaine peut surpasser un modèle généraliste 70B sur vos tâches métier spécifiques, avec 10 fois moins de consommation à l'inférence.

Architecture recommandée : déployer une cascade de modèles. Un routeur envoie les requêtes simples vers un petit modèle (7B) et les requêtes complexes vers un modèle plus grand. En pratique, 60 à 80% des requêtes enterprise peuvent être traitées par des modèles légers.

Principe 2 — Prompt optimization : moins de tokens, même qualité

Chaque token traité consomme de l'énergie. Des prompts concis, bien structurés, sans contexte superflu réduisent la consommation à l'inférence. Des études montrent que des prompts optimisés peuvent réduire de 30 à 50% le nombre de tokens nécessaires pour obtenir une réponse de même qualité.

Principe 3 — Caching et déduplication

Mettre en cache les réponses aux requêtes fréquentes évite de recalculer des inférences identiques. Pour les chatbots d'entreprise avec des FAQ récurrentes, le taux de cache hit peut atteindre 20 à 40%, réduisant d'autant la consommation. Les systèmes de KV-cache au niveau du LLM permettent de réutiliser les calculs de contexte partagés entre requêtes.

Principe 4 — Quantization et optimisation des modèles

La quantization (réduction de la précision numérique des poids de float32 à int8 ou int4) réduit de 2 à 4 fois la mémoire et la consommation à l'inférence, avec une dégradation de performance de 1 à 3%. Les formats GGUF et AWQ sont aujourd'hui suffisamment matures pour une utilisation en production.

Principe 5 — Temporal shifting

Planifier les traitements batch non urgents (analyse de documents, génération de rapports) pendant les heures à faible intensité carbone du réseau électrique. En France, l'intensité carbone du réseau varie de 20 à 80g CO₂/kWh selon l'heure et la saison — planifier les gros traitements la nuit réduit leur empreinte de 30 à 50%.

PratiqueRéduction empreinteImpact qualitéComplexité impl.
Right-sizing (modèle plus petit)50-90%Faible si bien calibréMoyenne
Prompt optimization20-40%Nulle ou positiveFaible
Caching des réponses20-40% (sur requêtes cachées)NulleFaible
Quantization INT840-60%1-2% de dégradationFaible
Temporal shifting20-50% (intensité carbone)NulleFaible
Architecture cascade60-80% (énergie totale)Maintenue par routageÉlevée

Choisir un modèle LLM selon son empreinte carbone

L'empreinte carbone d'un LLM à l'inférence est déterminée par trois facteurs principaux : la taille du modèle (nombre de paramètres actifs), l'efficacité architecturale (dense vs MoE), et l'intensité carbone du datacenter d'hébergement.

MoE vs Dense : pourquoi la taille affichée est trompeuse

Les modèles MoE (Mixture of Experts) comme Mixtral 8x7B ou les versions récentes de GPT-4 n'activent qu'une fraction de leurs paramètres à chaque inférence. Mixtral 8x7B a 46B paramètres totaux mais n'en active que ~12B par token — offrant la performance d'un 45B pour la consommation d'un 12B. C'est un argument technique fort pour choisir des architectures MoE à performance égale.

L'intensité carbone du datacenter : le facteur dominant

À taille de modèle égale, un datacenter en France (mix nucléaire + renouvelables, ~50g CO₂/kWh) émet 5 fois moins qu'un datacenter en Pologne (~250g CO₂/kWh) et 3 fois moins qu'un datacenter en Allemagne (~150g CO₂/kWh). Choisir un fournisseur IA souverain français n'est pas seulement une question de conformité RGPD — c'est aussi un choix RSE rationnel.

Infrastructure verte et souveraineté : deux objectifs compatibles

La fausse dichotomie entre souveraineté et durabilité est souvent avancée : "les grands hyperscalers ont de meilleures performances environnementales que les petits fournisseurs français". La réalité est plus nuancée.

Certes, AWS, Azure et Google investissent massivement dans les renouvelables et publient des PPA (Power Purchase Agreements) verts. Mais leurs PUE moyens globaux (incluant des régions à haute intensité carbone) et leur opacité sur l'allocation régionale de l'énergie verte rendent les comparaisons difficiles. Un datacenter tier 4 français alimenté à 100% en énergie renouvelable certifiée offre une traçabilité carbone supérieure pour le reporting CSRD.

Les acteurs souverains français bénéficient également de l'avantage structurel du mix électrique français : avec ~70% de nucléaire bas-carbone, la France a l'une des intensités carbone électriques les plus basses d'Europe (50-60g CO₂/kWh contre 150-300g pour l'Allemagne ou la Pologne).

L'IA comme outil RSE : les bénéfices environnementaux à ne pas ignorer

L'analyse de l'empreinte IA ne serait pas complète sans considérer les bénéfices environnementaux que l'IA peut générer. Cette analyse différentielle est ce que certains chercheurs appellent le "bilan net" de l'IA pour la transition écologique.

Cas d'usage à fort impact positif

  • Optimisation logistique et transport : les algorithmes IA optimisant les routes de livraison réduisent les km parcourus de 15 à 30%, avec un impact carbone positif qui dépasse l'empreinte du système IA lui-même
  • Gestion intelligente de l'énergie : les LLM couplés à des capteurs IoT optimisent la consommation des bâtiments et des processus industriels — cas d'usage à fort ROI carbone
  • Automatisation du reporting CSRD : l'IA réduit le temps de collecte et d'analyse des données ESG, permettant un reporting plus fréquent et plus précis
  • Simulation et éco-conception : les LLM accélèrent la conception de produits plus économes (analyse de cycle de vie, recherche de matériaux alternatifs)

La question n'est pas "l'IA est-elle bonne ou mauvaise pour l'environnement" mais "quel déploiement IA génère le meilleur ratio bénéfice environnemental / empreinte carbone". Une IA qui optimise la logistique d'une flotte de camions peut neutraliser sa propre empreinte carbone en quelques jours d'utilisation.

Intelligence Privée et engagement RSE : notre approche

Intelligence Privée a construit sa politique RSE autour de trois engagements concrets sur l'empreinte de ses LLM ELODIE et KEVINA 32B :

1. Hébergement dans des datacenters bas-carbone français

Nos modèles tournent exclusivement dans des datacenters tier 3/4 situés en France, bénéficiant du mix électrique français (intensité carbone parmi les plus basses d'Europe). Nous publions trimestriellement nos données de consommation et d'intensité carbone pour que nos clients puissent les intégrer à leur reporting CSRD.

2. Architecture frugale

KEVINA 32B est dimensionné pour couvrir la grande majorité des cas d'usage enterprise sans recourir à des modèles de 70B ou 400B. Notre architecture MoE garantit que seule la fraction de paramètres nécessaire est activée à chaque inférence. Nous proposons également ELODIE en version 7B pour les tâches simples et répétitives.

3. Transparence et auditabilité

Chaque client Intelligence Privée reçoit un tableau de bord de consommation détaillant les kWh consommés par son organisation, la part d'énergie renouvelable correspondante, et les émissions CO₂eq calculées selon la méthodologie GHG Protocol. Ces données sont directement utilisables pour le reporting ESRS E1.

Cette transparence est impossible avec les grands LLM cloud publics, où la consommation individuelle par client n'est pas communicable. C'est un avantage concret d'Intelligence Privée pour les directions RSE soumises au CSRD (voir notre guide CSRD et IA).

Mesurer l'empreinte carbone de vos LLM en production : méthodes et outils

La difficulté fondamentale : l'opacité des fournisseurs cloud

La première difficulté pour les directions RSE est que les principaux fournisseurs LLM cloud (OpenAI, Anthropic, Google) ne publient pas de données granulaires de consommation électrique par client. Vous recevez une facture en tokens ou en requêtes, pas en kWh. Cette opacité rend la conformité CSRD/ESRS E1 particulièrement laborieuse pour les utilisateurs de LLM cloud américains.

Les approches disponibles pour estimer malgré tout :

  • Facteurs d'émission par token : la littérature académique fournit des estimations. Pour GPT-4 : environ 0,006 kWh pour 1000 tokens d'entrée + sortie dans un datacenter américain moyen (facteur carbone ~0,45 kg CO₂/kWh), soit environ 2,7g CO₂ per 1000 tokens. Ces estimations ont une marge d'incertitude de ±50%.
  • Outils du fournisseur : Azure propose le Carbon Dashboard pour les services Azure OpenAI. Google Cloud a le Carbon Footprint Dashboard. Ces outils donnent des estimations plus précises mais restent approximatifs.
  • ML CO₂ Impact calculator : l'outil en ligne mlco2.github.io permet d'estimer l'empreinte d'entraînement en entrant les hyperparamètres et l'infrastructure utilisée.
  • CodeCarbon : la librairie Python open source CodeCarbon peut être intégrée dans vos pipelines de fine-tuning et d'évaluation pour mesurer en temps réel la consommation électrique et les émissions CO₂eq.

Mise en place d'un système de mesure opérationnel

Pour les entreprises hébergeant leurs LLM en interne ou chez un fournisseur transparent comme Intelligence Privée, une mesure précise est possible :

Mesure au niveau GPU : nvidia-smi expose la puissance consommée en temps réel par chaque GPU. Un daemon de collecte (Prometheus + exporteur nvidia_smi) peut agréger ces données en continu. La consommation totale est la somme des kWh GPU + refroidissement (PUE du datacenter).

Formule de calcul des émissions :

CO₂eq (kg) = Consommation GPU (kWh) × PUE × Facteur d'émission réseau (kg CO₂/kWh)

  • PUE datacenter France standard : 1,3 à 1,5
  • Facteur d'émission réseau France 2025 : ~0,052 kg CO₂/kWh (RTE)
  • Facteur d'émission avec renouvelables certifiés : peut descendre à 0,020-0,030 kg CO₂/kWh

Exemple concret : une inférence KEVINA 32B sur une requête de 2000 tokens consomme environ 0,004 kWh GPU. Avec un PUE de 1,4 et le facteur d'émission français : 0,004 × 1,4 × 0,052 = 0,00029 kg CO₂eq = 0,29g CO₂eq par requête. Sur 1 million de requêtes par mois : 290 kg CO₂eq/mois.

Comparatif de l'empreinte carbone selon les fournisseurs IA

Pourquoi la localisation du datacenter est le facteur dominant

À modèle et charge de travail identiques, la consommation électrique en kWh est similaire quel que soit le datacenter. C'est le facteur d'émission du réseau électrique local qui crée des différences dramatiques en termes d'émissions CO₂eq :

Datacenter / PaysFacteur émission (kg CO₂/kWh)Émissions relativesSources énergétiques dominantes
France (RTE 2025)0,0521x (référence)Nucléaire (~70%), renouvelables
Suède, Norvège0,010-0,0200,2-0,4xHydraulique, éolien
Espagne, Portugal0,080-0,1201,5-2,3xRenouvelables + gaz
Allemagne0,145-0,1802,8-3,5xGaz + charbon + renouvelables
États-Unis (moyenne nationale)0,370-0,4507-9xGaz, charbon, renouvelables
Virginie du Nord (AWS US-EAST)0,280-0,3505-7xGaz, charbon, nucléaire
Pologne0,520-0,62010-12xCharbon dominant

Ces données montrent qu'un LLM hébergé en France est de facto 7 à 9 fois moins émissif en CO₂ qu'un LLM hébergé dans un datacenter américain moyen, et jusqu'à 12 fois moins émissif qu'en Pologne — pour une consommation électrique identique. Pour les directions RSE qui doivent minimiser leur Scope 3 numérique, le choix du datacenter d'hébergement est de loin le levier le plus impactant.

Les claims "100% renouvelable" des hyperscalers : attention à la réalité

Azure, AWS et Google affichent des objectifs ambitieux de neutralité carbone et de 100% d'énergies renouvelables. Ces engagements doivent être lus avec attention :

  • Matching annuel vs matching horaire : un datacenter qui consomme du charbon la nuit et achète des certificats d'énergie verte (RECs) pour compenser annuellement n'est pas "vert" au sens opérationnel. Le matching horaire (consommation verte à chaque heure) est bien plus exigeant et encore rare.
  • Allocation régionale des certificats : les hyperscalers agrègent les certificats de renouvelables à l'échelle mondiale. Un serveur en Virginie peut être "compensé" par des éoliennes en Iowa — sans lien physique avec l'énergie réellement consommée.
  • Scope 3 amont : la fabrication des GPU (fortement carbonée) n'est généralement pas incluse dans ces déclarations.

En comparaison, le facteur d'émission du réseau électrique français est un indicateur physiquement réel, vérifié par RTE, et directement applicable à votre consommation réelle — sans nécessité de certificats verts additionnels. C'est un argument de qualité de reporting pour votre DSR.

Plan d'action RSE-IA : 6 étapes pour une IA plus verte

Étape 1 — Inventaire et baseline

Cartographier tous les LLM et services IA utilisés, estimer leur consommation actuelle (kWh et kg CO₂eq par mois), et calculer leur contribution aux émissions Scope 2 et 3 de votre entreprise. Cette baseline sera le point de référence pour mesurer l'amélioration.

Étape 2 — Réduction à la source

Appliquer les principes d'IA frugale : right-sizing des modèles, prompt optimization, caching des réponses fréquentes. Ces actions peuvent réduire de 30 à 60% la consommation sans dégradation de service.

Étape 3 — Choix de fournisseurs bas-carbone

Migrer les LLM les plus consommateurs vers des fournisseurs hébergés dans des pays à faible intensité carbone (France en priorité). Impact potentiel : réduction de 70 à 90% des émissions CO₂eq à consommation électrique constante.

Étape 4 — Temporal shifting pour les traitements batch

Configurer les traitements batch non urgents pour s'exécuter la nuit (faible intensité carbone en France) plutôt qu'en journée. Réduction potentielle de 20 à 40% des émissions liées aux traitements batch.

Étape 5 — Reporting et documentation CSRD

Mettre en place un système de reporting mensuel de la consommation IA (kWh, kg CO₂eq), en différenciant Scope 2 (hébergement propre) et Scope 3 (services IA tiers). Intégrer ces données dans le reporting CSRD/ESRS E1 annuel avec la méthodologie de calcul documentée.

Étape 6 — Valorisation et communication

La démarche IA frugale est un argument RSE différenciant. Communiquer sur vos engagements (réduction mesurée de X% en 12 mois, bascule vers des LLM bas-carbone, reporting CSRD transparent) auprès de vos clients, investisseurs et collaborateurs. La RSE IA devient un argument de marque employeur et de différenciation commerciale.

Pour approfondir la dimension reporting : notre guide complet IA et reporting CSRD/ESG et notre article sur le calcul du ROI IA qui intègre les coûts environnementaux dans l'analyse.

Outils et frameworks pour mesurer et reporter l'impact RSE de l'IA

L'écosystème des outils de mesure de l'empreinte carbone IA

La mesure de l'empreinte environnementale des systèmes IA est un domaine qui a rapidement maturé depuis 2023, avec l'apparition d'outils de plus en plus précis et intégrables dans les workflows de développement et d'exploitation.

CodeCarbon (Benoit Courty et al., open source) : la librairie Python la plus utilisée pour mesurer l'empreinte carbone des workloads d'entraînement et d'inférence. S'intègre avec 3 lignes de code dans n'importe quel script Python, mesure la consommation en temps réel et calcule les émissions selon la localisation géographique et le mix énergétique local. Idéal pour les pipelines de fine-tuning et les benchmarks d'inférence.

ML CO₂ Impact (MILA, Montréal) : calculateur web et librairie Python permettant d'estimer l'empreinte d'entraînement à partir des hyperparamètres (type de GPU, nombre de GPUs, durée, localisation). Utile pour estimer l'empreinte de modèles pré-entraînés par des tiers.

Eco2AI (Sberbank AI, open source) : alternative à CodeCarbon avec support multi-GPU et métriques d'efficacité énergétique (tokens par kWh, performance par watt). Particulièrement adapté pour l'optimisation de l'efficacité énergétique des services d'inférence.

Azure Carbon Dashboard : pour les entreprises utilisant Azure OpenAI Service, ce tableau de bord fournit des estimations de l'empreinte carbone des services Azure utilisés, avec décomposition par région et par type de service. Données utilisables pour le reporting CSRD Scope 3.

Frameworks de reporting RSE spécifiques au numérique et à l'IA

Au-delà des outils de mesure technique, les directions RSE peuvent s'appuyer sur des frameworks structurés pour leur reporting IA :

  • GRI 305 (Émissions) : le standard GRI couvre les émissions Scope 1, 2 et 3. L'empreinte IA entre dans le Scope 2 (hébergement propre) ou Scope 3 (services cloud tiers). GRI ne fournit pas de guidelines spécifiques à l'IA mais son cadre général est applicable.
  • ESRS E1 (CSRD) : la norme européenne de reporting qui s'applique aux entreprises soumises au CSRD. Exige des données quantitatives sur les émissions Scope 1, 2 et 3, avec la méthodologie de calcul documentée. L'empreinte IA doit être intégrée dans les postes Scope 3 correspondants.
  • Référentiel NégaWatt : le référentiel de sobriété numérique NégaWatt propose des indicateurs spécifiques au numérique (kWh/utilisateur/mois, CO₂eq/transaction) qui peuvent être adaptés aux services IA.
  • Spécification GreenOps (IEEE P2811) : standard en cours de développement pour l'opération durable des systèmes numériques incluant l'IA. À surveiller pour 2027-2028.

Construction d'un tableau de bord RSE-IA pour la direction

Un tableau de bord RSE-IA mensuel à destination de la direction RSE et du Comité Développement Durable doit inclure :

  • Consommation électrique IA totale (kWh/mois) : décomposée par type de workload (inférence, fine-tuning, embedding) et par système IA
  • Émissions CO₂eq/mois : avec décomposition Scope 2 (hébergement interne) et Scope 3 (services IA tiers)
  • Intensité carbone (/requête, /token, /utilisateur) : indicateur d'efficacité énergétique pour suivre l'impact des optimisations
  • Évolution vs baseline : comparaison avec la période précédente et avec l'objectif annuel de réduction
  • Ratio bénéfice/empreinte : économies de CO₂ générées par les cas d'usage IA d'optimisation (logistique, énergie) vs empreinte du système IA — le bilan net de l'IA pour la RSE

Pour intégrer ces données dans votre reporting global : notre guide IA et reporting CSRD/ESG et notre article sur la maturité IA de votre organisation.

Cas d'usage IA frugale : des entreprises qui réduisent leur empreinte

Exemples de démarches IA frugale réussies

La théorie de l'IA frugale prend son sens concret à travers les résultats obtenus par des entreprises qui l'ont appliquée. Voici des scénarios représentatifs de ce que nos clients ont accompli :

Logisticien régional (450 véhicules) : remplacement d'un LLM 70B par un modèle 7B fine-tuné pour l'optimisation des tournées et la génération de bons de livraison. Résultat : réduction de 82% de la consommation énergétique IA pour ce cas d'usage, avec des performances identiques sur les tâches spécialisées. La différence : le grand modèle traitait tout, le petit modèle spécialisé fait mieux sur un domaine restreint.

Cabinet RH (200 000 CV traités/an) : mise en place d'un système de caching des embeddings pour les CV avec patterns similaires (formation, expérience standardisées). 35% des CV sont traités depuis le cache sans calcul d'embedding ni appel LLM. Réduction de la consommation IA de 35% sans impact sur la qualité de screening.

Assureur (chatbot client) : implémentation d'une architecture cascade : 70% des requêtes traitées par ELODIE (modèle léger), 30% escaladées vers KEVINA 32B. Réduction de 55% des coûts d'inférence et de l'empreinte carbone, avec maintien de la satisfaction client.

Ces exemples illustrent que l'IA frugale n'est pas un sacrifice de performance — c'est une ingénierie plus fine qui aligne les ressources computationnelles avec les besoins réels. Pour en savoir plus sur le calcul du ROI intégrant les dimensions environnementales : notre guide calculer le ROI de l'IA en entreprise.

Bonnes pratiques organisationnelles pour une IA plus verte

Au-delà des mesures techniques, la réduction de l'empreinte carbone de l'IA passe par des changements organisationnels. Former les équipes à l'IA frugale signifie non seulement former les ingénieurs aux techniques d'optimisation, mais aussi sensibiliser les utilisateurs finaux à l'impact de leurs usages. Un utilisateur qui comprend que chaque requête consomme de l'énergie adaptera naturellement son comportement : il regroupera les questions, évitera les régénérations inutiles, et utilisera le bon outil pour le bon besoin. Des indicateurs d'empreinte affichés dans l'interface ("Cette requête a consommé X g CO₂eq") peuvent avoir un effet comportemental significatif, similaire aux indicateurs de consommation en temps réel sur les véhicules électriques. La politique IA de l'entreprise doit inclure des critères environnementaux dans les décisions d'achat et de déploiement : privilégier les fournisseurs hébergés en France (bas carbone), choisir le modèle le moins énergivore capable de réaliser la tâche, et fixer des objectifs d'intensité carbone par requête dans les SLA internes. La direction RSE doit être partie prenante des décisions IA, pas seulement bénéficiaire du reporting. Pour une gouvernance IA intégrée à votre démarche RSE : notre guide sur la gouvernance IA en entreprise et notre article sur le modèle de maturité IA.

FAQ — IA, RSE et bilan carbone

Comment calculer l'empreinte carbone de mes requêtes LLM ?

Plusieurs méthodes selon votre configuration : 1) Si vous utilisez un LLM via API cloud (Azure, OpenAI), utilisez les outils de carbon dashboard du fournisseur ou appliquez un facteur de ~1,7g CO₂eq par requête GPT-4 standard (Hugging Face 2024). 2) Si vous hébergez en interne, mesurez la consommation kWh des GPU (via nvidia-smi ou IPMI) multipliée par le facteur d'émission de votre fournisseur d'énergie ou du réseau national (France : ~52g CO₂/kWh en 2025). 3) Si vous êtes client Intelligence Privée, notre tableau de bord calcule automatiquement ces valeurs par organisation.

L'IA est-elle obligatoirement dans le périmètre CSRD/ESRS ?

Pas explicitement nommée dans les textes actuels, mais l'ESRS E1 impose de reporter toutes les émissions numériques significatives (Scope 3 — catégorie "Utilisation de produits et services vendus" ou "Achats de biens et services"). Si votre dépense IA est matérielle (>5% du budget numérique ou >1000 tonnes CO₂eq/an), elle doit être reportée. La Commission européenne révise actuellement les ESRS pour expliciter le périmètre numérique et IA.

Les LLM locaux (on-premise) sont-ils plus vertueux que le cloud ?

Pas nécessairement — cela dépend de l'efficacité de votre infrastructure. Un datacenter privé sous-utilisé avec un mauvais PUE peut être plus émissif que du cloud mutualisé bien optimisé. La clé est le taux d'utilisation des GPU (>70% idéalement), le PUE du datacenter, et le mix énergétique. Un déploiement on-premise dans un datacenter certifié ISO 50001 avec énergie verte peut être très compétitif. En revanche, des serveurs GPU hébergés dans une salle informatique de bureau (PUE 2,5+) sont rarement vertueux.

Comment comparer l'empreinte de différents LLM ?

L'indicateur le plus utile est le CO₂eq par token généré, dans votre contexte d'hébergement spécifique. Des outils comme CodeCarbon (Python), llm-tracker, ou l'outil d'empreinte de Hugging Face permettent de mesurer la consommation en production. Pour les comparaisons entre modèles, les model cards publiées par Meta (Llama), Mistral, et d'autres fournissent des données d'entraînement. Les données d'inférence sont plus rares mais estimables à partir des FLOPs par token et de l'efficacité GPU.

Existe-t-il des labels ou certifications pour l'IA verte ?

Pas encore de certification standardisée spécifique à l'IA verte en 2026, mais plusieurs initiatives émergent : le label Numérique Responsable (INR) en France couvre les systèmes numériques incluant l'IA, la spécification GreenOps de l'IEEE est en cours, et l'AFNOR travaille à des critères d'éco-conception IA. Le règlement européen sur l'éco-conception (révisé 2025) pourrait inclure des exigences pour les datacenters hébergeant des services IA d'ici 2027.

Comment inclure l'empreinte IA dans notre bilan carbone d'entreprise ?

L'empreinte IA doit être intégrée dans le Scope 3 si vous utilisez des services cloud IA tiers (catégorie "Achats de biens et services" selon GHG Protocol) ou dans le Scope 1/2 si vous exploitez votre propre infrastructure. Commencez par inventorier toutes les dépenses IA (API, abonnements SaaS IA, infrastructure dédiée), collectez les données de consommation auprès des fournisseurs, et appliquez les facteurs d'émission appropriés. Pour les API opaque (OpenAI), utilisez les estimations publiées dans la littérature académique comme base de calcul conservatrice.

Quelle est la différence de performance entre les LLM en termes d'empreinte carbone ?

L'empreinte carbone d'une inférence LLM varie considérablement selon la taille du modèle et l'architecture. Un modèle 7B consomme environ 0,0008 kWh par 1000 tokens générés, contre 0,008 kWh pour un modèle 70B — soit un rapport de 10x. Les modèles MoE (Mixture of Experts) comme Mixtral 8x7B offrent un meilleur ratio : des performances proches d'un 45B dense pour une consommation proche d'un 12B actif. Intelligence Privée a sélectionné KEVINA 32B précisément pour ce ratio performance/empreinte optimal : suffisamment puissant pour les cas d'usage enterprise exigeants, suffisamment compact pour une empreinte raisonnable. Sur le même cas d'usage, KEVINA 32B consomme environ 4 fois moins qu'un GPT-4 équivalent hébergé aux États-Unis — combinant l'avantage du modèle plus compact et l'avantage du facteur d'émission français.

L'IA peut-elle vraiment aider à atteindre nos objectifs de réduction carbone ?

Oui, si bien déployée. Des études de McKinsey et de l'AIE estiment que l'IA pourrait contribuer à réduire les émissions mondiales de 1,5 à 4 gigatonnes de CO₂eq par an d'ici 2030 — soit 2,5 à 7% des émissions mondiales actuelles. Les leviers principaux : optimisation de l'efficacité énergétique des bâtiments et des processus industriels (IA comme outil de gestion intelligente), optimisation des transports et de la logistique (réduction des km à vide, optimisation des routes), accélération de la recherche sur les matériaux et les technologies bas-carbone (IA comme accélérateur de R&D), et amélioration du monitoring et du reporting ESG (IA comme outil de mesure). Le bilan net de l'IA pour le climat peut être largement positif — à condition que les systèmes IA eux-mêmes soient conçus de façon frugale et hébergés dans des infrastructures bas-carbone.

Une IA souveraine avec empreinte mesurée et minimisée

Intelligence Privée héberge ses LLM ELODIE et KEVINA 32B dans des datacenters français bas-carbone et fournit à chaque client un tableau de bord de consommation détaillé pour le reporting CSRD/ESRS E1. Architecture frugale, données d'empreinte exportables, transparence totale sur la chaîne énergétique.

Découvrir l'IA frugale souveraine