Aller au contenu principal

L'empreinte environnementale des modèles d'IA — décodage complet

balise-ia15 avril 202625 min de lecture
Intelligence artificielleEmpreinte environnementaleLLMAnalyse

Pour 3 650 requêtes par an : combien d'heures de TV, de douches et de kilomètres en voiture pour chaque modèle ? Analyse sourcée de 10 LLM, du Gemini Flash à GPT-5, avec toutes les références primaires et les limites de chaque chiffre.

01 — Pourquoi ce document

J'ai écrit ce document parce qu'en cherchant des chiffres fiables sur la consommation énergétique des modèles d'IA, je suis tombé sur trois choses qui m'ont énervé.

La majorité des chiffres qui circulent dans la presse et sur LinkedIn sont faux ou mal sourcés. L'estimation la plus citée — « ChatGPT consomme 3 Wh par requête » — vient d'une étude de 2023 (de Vries) qui a depuis été démentie d'un facteur 10 par les chiffres officiels d'OpenAI, de Google, et par des modélisations indépendantes plus récentes.

Les seules entreprises qui publient des données vérifiables (Google et Mistral) le font avec des méthodologies différentes, ce qui rend les comparaisons impossibles. Et les autres (OpenAI, Anthropic, DeepSeek, xAI, Meta) ne publient quasiment rien.

Le levier d'action concret le plus puissant — désactiver le mode reasoning quand on n'en a pas besoin — est complètement absent du débat public, alors qu'il représente potentiellement un facteur × 30 en moyenne, et jusqu'à × 700 sur des cas extrêmes.

Ce document est ma tentative de remettre les chiffres au clair, sans bullshit et sans alarmisme, à partir des sources primaires uniquement. Et de les rendre concrets — pas en watts par requête, mais en équivalents qu'on peut sentir dans une vie quotidienne.

02 — Sur 1 an d'usage : ce que ça donne

Plutôt que de noyer le lecteur sous les watts par requête, j'ai choisi de raisonner sur une année complète d'utilisation. Le profil de référence :

Profil utilisateur de référence

10 requêtes par jour × 365 jours = 3 650 prompts/an. C'est un usage business modéré : quelqu'un qui s'appuie quotidiennement sur l'IA pour rédiger des emails, résumer des documents, brainstormer, traduire. Pour un développeur en pair-programming intensif ou un consultant qui code/écrit toute la journée, multipliez par 10 à 20.

Trois métriques. Trois équivalents tangibles. Tout est calculé à partir des mêmes valeurs par requête (sources primaires Jegham, Google, Mistral, Hugging Face), simplement multipliées par 3 650 et converties.

⚡ Énergie — en heures de TV allumée

L'énergie consommée par vos prompts, ramenée à la métrique la plus familière du quotidien : une TV LED de 60 watts qui tourne.

Graphique en barres de la consommation énergétique annuelle de 9 modèles LLM, en heures de TV LED 60 W équivalentes
9 modèles, 3 650 requêtes/an, équivalence en heures de TV LED 60 W. Échelle logarithmique. Sources : Jegham et al., Google, Hugging Face AI Energy Score.

La lecture est nette : passer d'un Gemini Flash (~18 h de TV, soit moins d'un jour) à un o3 d'OpenAI (~2 370 h, soit 99 jours d'une TV allumée 24/24) représente un facteur × 130 sur l'année — et pourtant ces deux modèles font tourner la même volumétrie de prompts.

💧 Eau — en litres et équivalent douches

Pour cette métrique, j'ai gardé les litres bruts comme valeur principale.

Graphique en barres de la consommation d'eau annuelle de 9 modèles LLM, en litres
Eau consommée par an pour 3 650 requêtes. Hypothèse douche standard 50 L (ADEME). Échelle logarithmique. Sources : Google paper, Mistral LCA, Jegham et al.

Cette métrique est probablement celle qui surprend le plus. À titre individuel, l'eau consommée par vos prompts reste vraiment modeste : moins d'une dizaine de litres par an pour un usage léger ou standard, soit largement moins qu'une douche unique. C'est seulement sur les modèles reasoning qu'on bascule dans des chiffres significatifs (4 à 9 douches/an).

Mais attention : ce sont les chiffres « on-site » (eau de refroidissement directe des datacenters). Si on inclut l'eau de production électrique en amont, il faut multiplier par 2 à 5. Et si on agrège sur les 100 millions d'utilisateurs ChatGPT, le cumul devient un sujet local sérieux dans certaines régions (Virginie, Irlande, Arizona).

🚗 CO₂ — en kilomètres en voiture

Et la métrique la plus parlante de toutes : le CO₂ émis par an, ramené à des kilomètres parcourus en voiture thermique moyenne (120 g CO₂/km, ADEME). Les équivalents géographiques locaux rendent les distances tangibles.

Graphique en barres des émissions CO₂ annuelles de 9 modèles LLM, en kilomètres en voiture équivalents
CO₂ émis par an pour 3 650 requêtes. Hypothèse voiture moyenne France 120 g CO₂/km. Échelle logarithmique. Sources : Google, Mistral LCA, Jegham et al.

Là encore, l'écart est saisissant : pour la même volumétrie de requêtes annuelles, vous avez le choix entre faire l'équivalent d'un tour du quartier (Gemini médian, ~1 km) ou d'un Lorient → Bordeaux (o3, ~426 km). C'est exactement le même usage, mais le choix du modèle change tout.

Bonus géographie : le levier ignoré

Le même Claude Sonnet émet ~7× plus de CO₂ via AWS US Virginie qu'en France — uniquement à cause du mix électrique. Préférer les régions cloud européennes est probablement le levier d'action le plus simple à mettre en place, et personne n'en parle.

03 — Le « reasoning tax »

C'est la trouvaille la plus actionnable de tout ce dossier. Source primaire : Hugging Face AI Energy Score v2 (Sasha Luccioni & Boris Gamazaychikov, décembre 2025). C'est le seul benchmark indépendant qui teste les modèles dans des conditions strictement identiques : NVIDIA H100 isolé, mêmes prompts, méthodologie reproductible et open-source.

Le constat brut

Les modèles de reasoning utilisent en moyenne 30 fois plus d'énergie que les modèles sans reasoning. Sur les cas les plus extrêmes, l'écart pour le même modèle avec reasoning activé vs désactivé monte à 150 à 700 fois plus d'énergie.

Cause mécanique : un modèle reasoning génère 300 à 800 fois plus de tokens en interne (chain of thought) avant de produire sa réponse visible.

Les chiffres exacts du benchmark Hugging Face

La fourchette × 150-700 vient de trois modèles open-source spécifiques testés par HF v2 :

ModèleReasoning OFFReasoning ONMultiplicateur
DeepSeek-R1-Distill-Llama-70B49,5 Wh7 626 Wh× 154
Phi-4-reasoning-plus (Microsoft)18,4 Wh9 461 Wh× 514
SmolLM3-3B18,3 Wh12 791 Wh× 697

Wh GPU pour 1 000 requêtes. Mesures isolées sur NVIDIA H100. Source : HF AI Energy Score v2.

Donc la lecture honnête est la suivante : la moyenne du benchmark est × 30, et les cas extrêmes (sur des modèles open-source distillés) atteignent × 700. Ce n'est pas la même chose que dire que tous les modèles reasoning consomment 700 fois plus.

Pourquoi c'est aussi spectaculaire

Un modèle « reasoning » ne se contente pas de générer une réponse. Il génère d'abord une longue chaîne de pensée interne où il « réfléchit » au problème, explore plusieurs pistes, vérifie ses propres erreurs, puis produit la réponse finale visible.

Cette chaîne de pensée est invisible pour l'utilisateur (sauf si on l'affiche explicitement, ce que font certains modèles comme DeepSeek-R1 ou Claude Extended Thinking). Mais elle est facturée énergétiquement comme n'importe quel token généré.

Concrètement : pour répondre « la racine carrée de 144 est 12 » :

  • Un modèle standard génère ~10 tokens.
  • Un modèle reasoning génère ~3 000 tokens (qui disent en interne « bon, 12² = 144, vérifions, oui c'est ça, donc √144 = 12, je vais répondre 12 »).

Multipliez par le nombre de requêtes par jour, et vous obtenez le facteur × 30 en moyenne sur l'ensemble du benchmark.

Confirmation indépendante sur GPT-5

Source : Jegham et al. v5 (novembre 2025), papier University of Rhode Island. GPT-5 utilise un système d'« adaptive routing » : le modèle décide lui-même, selon le prompt, s'il doit activer le reasoning ou non. C'est invisible pour l'utilisateur.

2,3 WhReasoning minimalprompt medium
17,2 WhReasoning élevémême prompt, ×7
40 WhMaximum observéprompts complexes
Caveat important

Les chiffres GPT-5 de Jegham sont une modélisation qui suppose une infrastructure DGX H100. Tom's Hardware a publié en août 2025 une critique de cette étude, soulignant que si OpenAI utilise déjà du Blackwell B100/B200 (4× plus efficace que H100), les chiffres absolus sont surestimés. Les rapports relatifs (mode normal vs reasoning) restent valables, mais les valeurs absolues doivent être prises comme un ordre de grandeur, pas comme une vérité.

Ce qu'il faut en faire

80 % des tâches business courantes ne nécessitent PAS de reasoning :

  • Rédaction d'email, résumé de document, brainstorm, reformulation, traduction.
  • Code simple (boilerplate, fonctions standards), classification, extraction.
  • Réponse à des questions factuelles.
  • Création de contenu (article, post, ad copy).

20 % des tâches le justifient :

  • Démonstration mathématique formelle.
  • Code complexe avec contraintes multiples (performance, sécurité, edge cases).
  • Analyse multi-étapes avec dépendances logiques.
  • Diagnostic de bug subtil.
  • Planification stratégique avec multiples scénarios.
  • Toute tâche où une erreur intermédiaire compromet le résultat final.

04 — Pourquoi les chiffres varient autant

Si vous cherchez « consommation ChatGPT » sur Google, vous trouverez des chiffres allant de 0,03 g de CO₂ à 14 g, soit un facteur 470. Ce n'est pas du hasard, et ce n'est pas non plus que les chercheurs sont incompétents. C'est que la question est plus complexe qu'elle n'en a l'air.

Pourquoi Google et Mistral donnent des chiffres si différents

0,03 gGoogle (Gemini Apps médian)CO₂e par requête
1,14 gMistral (Le Chat / Large 2)CO₂e pour 400 tokens

C'est un facteur × 38. Mistral serait-il 38 fois plus polluant que Gemini ? Non. Quatre raisons cumulatives expliquent l'écart :

  1. Périmètre : Mistral inclut une part amortie de l'entraînement et de la fabrication serveur dans son chiffre par requête. Google compte uniquement l'inférence opérationnelle.
  2. Méthode CO₂ : Google utilise le « market-based » qui valorise ses achats massifs d'énergies renouvelables (PPA). Son facteur électrique market-based est de 94 gCO₂/kWh. Sa réalité physique (location-based) est de 345 gCO₂/kWh, soit × 3,7.
  3. Modèle et infra : Gemini est probablement un Mixture-of-Experts ultra-optimisé sur TPU Google maison. Mistral Large 2 est un modèle dense de 123 milliards de paramètres sur GPU loués.
  4. Définition de « requête » : Google parle du prompt médian, Mistral d'une réponse de 400 tokens. Ce ne sont pas les mêmes objets statistiques.
Conclusion

On ne peut pas conclure que Gemini est « 38 fois plus écologique » que Mistral. On peut conclure que les deux entreprises ont des comptabilités différentes, et que sans standard commun, comparer à la louche est trompeur.

L'impact du facteur électrique

C'est probablement le levier le plus important — et le plus invisible — sur l'empreinte CO₂ d'un usage IA.

Région / fournisseurgCO₂/kWh
France (mix RTE 2024)56
Google market-based (PPA renouvelables)94
Microsoft Azure (déclaré)353
AWS (estimation US)385
Mix mondial moyen 2024 (IEA)430
Chine (mix moyen)600
Pologne (mix charbon)720
Implication pratique

Un même usage de Claude Sonnet émet ~7× plus de CO₂ s'il tourne sur un datacenter US qu'en France. Et ~11× plus via une infra chinoise (mix charbon). Le choix d'infrastructure pèse autant que le choix de modèle.

05 — Et le training dans tout ça ?

Question récurrente, et légitime : « OK l'inférence n'est rien, mais entraîner ces modèles, ça doit être gigantesque, non ? » Réponse : oui et non.

Les chiffres connus

552 tCO₂GPT-3 (175B)estimation 2020
2 740 tCO₂Llama 3.1 405Bdéclaré Meta
20 400 tCO₂Mistral Large 2LCA peer-reviewée*

20 400 tCO₂, c'est l'équivalent annuel de ~4 500 voitures thermiques. Pour les modèles frontier actuels (GPT-5, Claude 4.6, Gemini 3.1), on parle probablement de plusieurs dizaines de milliers de tonnes par training run, mais aucune entreprise ne publie le chiffre.

* Le chiffre Mistral inclut training + inférence cumulée sur 18 mois, ce qui le rend non strictement comparable aux autres.

L'amortissement par milliards de requêtes

Le truc qu'il faut comprendre : le coût d'entraînement est fixe, le coût d'inférence est variable. Plus un modèle est utilisé, plus le training devient marginal en proportion.

Selon Epoch AI (analyse de 2024), le coût cumulé d'inférence dépasse celui du training entre 100 et 200 jours d'utilisation pour un modèle frontier en production à grande échelle. Pour ChatGPT en 2024 (1 milliard de requêtes/jour), l'inférence représentait déjà ~85 % des émissions cumulées.

Conclusion training vs inference

Pour les modèles frontier en production massive (ChatGPT, Gemini, Claude), l'inférence représente la majorité des émissions cumulées. C'est donc bien sur l'inférence qu'il faut concentrer l'attention pour réduire l'impact — et c'est le sujet de ce document.

Mais pour des modèles utilisés de façon plus ponctuelle (modèles internes spécialisés, fine-tunes d'entreprise), le training reste dominant.

06 — Perspective macro IEA

Source primaire : IEA, Energy and AI, rapport spécial publié en avril 2025 (~300 pages). C'est aujourd'hui la référence la plus solide sur le sujet macro.

415 TWhDatacenters mondiaux 2024≈ 1,5 % de l'élec mondiale
945 TWhProjection 2030≈ 3 % de l'élec mondiale
× 2,3Croissance en 6 ans≈ 15 % par an

Le contre-intuitif important

Si vous lisez la presse sur ce sujet, vous avez probablement l'impression que l'IA est en train de manger la planète. Le rapport IEA dit autre chose, plus nuancé.

  1. L'IA ne représente que ~10 % de la croissance globale de la demande électrique d'ici 2030. C'est moins que la croissance liée aux véhicules électriques, à la climatisation, ou aux moteurs industriels.
  2. Les émissions des datacenters atteindront ~1 % des émissions mondiales de CO₂ en 2030 dans le scénario central. Ce n'est pas négligeable, mais ce n'est pas le climaticide qu'on dépeint.
  3. C'est pourtant l'un des rares secteurs où les émissions augmentent, alors que la plupart décarbonent. Donc politiquement et stratégiquement, ça reste un sujet majeur.
  4. L'enjeu réel est local et concentré. Les datacenters s'installent dans quelques régions (Virginie aux US, Irlande en Europe, Pékin en Chine), où ils créent un stress énorme sur le réseau électrique, sur l'eau, et sur les infrastructures locales. C'est là que se joue le vrai problème, pas dans les statistiques globales.

L'effet rebond (paradoxe de Jevons)

Tous les rapports s'accordent sur ce point : l'efficacité énergétique par requête s'améliore très vite (Google a divisé par 33 sa conso/prompt en 12 mois), mais le volume global explose plus vite encore.

C'est pour ça que l'argument « ne vous inquiétez pas, l'IA s'optimise » est partiellement vrai mais incomplet. L'optimisation par requête ne suffira pas à compenser la croissance d'usage.

07 — Comparaisons à d'autres activités

Pour calibrer les ordres de grandeur dans votre tête, voici des points de repère convergents (sources : ADEME, IEA, Carbon Trust, The Shift Project, Mistral, Google).

En CO₂

Activitég CO₂e
1 prompt Gemini médian0,03
1 prompt ChatGPT moyen (Sam Altman)~0,15
1 prompt Claude Sonnet~1
1 prompt Mistral Large 2 (400 tokens)1,14
1 prompt o3 long~14
1 recherche Google (estimation 2009)0,2
1 minute streaming vidéo HD~5
1 minute Zoom (caméra activée)~3
1 km voiture thermique moyenne~120
1 baguette de pain~150
1 kg de bœuf~27 000
1 vol Paris-New York éco~1 000 000
Le repère qui marque les esprits

Un prompt Gemini = environ 1/5000ᵉ d'une baguette de pain en CO₂. Un Français consomme ~140 baguettes par an. À l'échelle individuelle, l'IA est invisible.

08 — Image et vidéo : le grand oublié

Tous les chiffres précédents concernent la génération de texte. Or de plus en plus de gens utilisent l'IA pour générer des images (Midjourney, DALL·E, Imagen, Stable Diffusion) et bientôt des vidéos (Sora, Veo, Runway). Et là, c'est une autre échelle.

Source : Luccioni, Jernite & Strubell, Power Hungry Processing (FAccT 2024) + AI Energy Score.

TâcheÉnergie
Classification de texte (BERT)~0,002 Wh
1 prompt LLM léger~0,1 Wh
1 prompt LLM standard~0,5 Wh
1 image Stable Diffusion XL sur H100~1,6 Wh
1 image SDXL sur A100 (réglages par défaut)~11 Wh
Variation entre 17 modèles d'image testés× 46
Génération de vidéo (Sora, Veo)estimation 50-500× le texte
Implication pratique

Si vous utilisez beaucoup de génération d'images ou de vidéos, votre empreinte AI vient sans doute davantage de là que de vos chatbots. Et personne n'en parle.

09 — Le combat de la transparence

État des lieux à avril 2026.

ActeurDonnées publiquesScore
GoogleMesures réelles Gemini Apps★★★★★
Mistral AILCA Mistral Large 2 peer-reviewée ADEME★★★★
OpenAIUne phrase Sam Altman, sans méthodo
AnthropicEngagements politiques fév 2026, aucune donnée chiffrée
DeepSeekAucune0
xAI (Grok)Aucune0
Microsoft CopilotAucune par modèle0
Meta (LLaMA en API)Aucune0
Apple IntelligenceAucune0
Cas Anthropic : nuance importante

Anthropic a publié en février 2026 un communiqué intitulé « Investing in energy to secure America's AI future », qui engage l'entreprise à couvrir les hausses de prix d'électricité pour les consommateurs causées par leurs datacenters, à investir dans la production d'électricité, et à déployer des systèmes de curtailment.

Mais ce communiqué ne contient aucune donnée quantitative : pas de Wh par requête, pas d'inventaire Scope 1/2/3, pas de rapport sustainability annuel. C'est de l'engagement politique, pas de la donnée vérifiable. Anthropic reste l'un des rares grands labs sans transparence quantitative — c'est d'autant plus paradoxal que l'entreprise se positionne publiquement comme « responsable » et « safety-first ».

Ironie : Claude 3.7 Sonnet ressort en tête du classement éco-efficacité de Jegham, mais c'est invérifiable sans données publiques.

10 — Critiques méthodologiques

Pour rester intellectuellement honnête, voici les limites principales de chaque source.

Jegham et al. (2025)

C'est de la modélisation, pas de la mesure. Les chiffres absolus peuvent diverger de la réalité d'un facteur × 2 à × 4. Hypothèses fortes sur le hardware (DGX H100, batch size = 8). Si OpenAI utilise déjà du Blackwell, les chiffres GPT-5 sont surestimés. Anthropic et OpenAI n'ont pas validé ces chiffres. Tom's Hardware a publié en août 2025 une critique de ces estimations, soulignant que les hypothèses hardware ne reflètent probablement pas la réalité d'OpenAI.

Ce qui reste solide : les rapports relatifs entre modèles dans la même étude. L'écart × 175 entre Gemini médian et o3 est crédible, même si les valeurs absolues peuvent être imprécises.

Google paper (2025)

Médiane uniquement (pas P90/P99). Market-based CO₂ qui flatte le chiffre (94 vs 345 gCO₂/kWh en location-based). Eau on-site uniquement (× 2 à 5 si on inclut l'eau de production électrique). Pas de breakdown par modèle. Volume total non publié.

Mistral / ADEME

Le rapport complet n'a pas été publié, seuls les chiffres synthétiques. Pas de séparation training vs inférence. 400 tokens est déjà un prompt « moyen-long ». Ne couvre que Mistral Large 2.

Hugging Face AI Energy Score v2

Tests en environnement isolé (H100 dédié), donc minore l'énergie réelle de production (qui inclut le PUE datacenter, soit × 1,1 à × 1,5 en plus). Ne teste que des modèles open-weights, pas les modèles propriétaires comme Claude ou GPT-5 directement. Mais c'est de la mesure réelle reproductible, ce qui en fait probablement la source la plus fiable du benchmark.

Sam Altman / OpenAI

Un seul chiffre, sans méthodologie, sans modèle précisé, dans un billet de blog perso. À traiter comme une déclaration corporate, pas comme une donnée scientifique.

11 — Que faire concrètement

Pour un utilisateur individuel

À l'échelle individuelle, votre empreinte AI est marginale. Faire 10 requêtes par jour à un chatbot standard pendant un an = ~3,6 kWh/an, soit 0,2 % de la consommation électrique d'un Français moyen. C'est moins qu'un cycle de sèche-linge par mois.

Mais c'est précisément l'agrégation de ces usages individuels qui crée le problème macro (× 2,3 sur la conso datacenters d'ici 2030 selon l'IEA). Le levier est donc collectif, pas culpabilisant.

Trois gestes simples qui ne coûtent rien :

  1. Désactivez le mode reasoning par défaut sur vos outils. Réservez-le aux problèmes complexes.
  2. Utilisez le bon modèle pour la tâche. Inutile de passer à Opus pour reformuler un email.
  3. Préférez les régions cloud européennes. Le même Claude Sonnet émet ~7× plus de CO₂ via AWS US Virginie qu'en France.

Pour une entreprise / un usage professionnel

L'impact agrégé devient significatif quand on parle de centaines ou milliers d'utilisateurs. Ici les leviers sont plus nets.

Implémenter un model routing intelligent

70 % des requêtes → modèle léger (Haiku, Flash, Mini)
20 % → modèle standard (Sonnet, GPT-4o, Gemini Pro)
10 % → modèle avancé (Opus, GPT-5, o3) uniquement quand nécessaire

Économies typiques : × 5 sur la facture, × 30 sur l'impact énergétique.

Pour un dirigeant / décideur

Avant de mettre une IA en production, posez ces 3 questions à votre fournisseur ou intégrateur :

  1. Quel modèle exactement ? (pas « ChatGPT », mais « GPT-5 mini avec reasoning désactivé »)
  2. Quel datacenter ? (région, fournisseur cloud, mix électrique)
  3. Quelle volumétrie attendue ? (requêtes/jour, taille moyenne)

Avec ces 3 informations, vous pouvez calculer l'ordre de grandeur de l'impact en ~5 minutes. Sans elles, vous achetez à l'aveugle.

C'est exactement le genre de diagnostic qu'on pratique chez balise-ia : audit énergétique de workflows IA, sélection de modèles adaptés à chaque usage, et design de systèmes sobres et efficaces. Pour en savoir plus, consultez notre page IA ou demandez un diagnostic IA.

Sources principales

  • Luccioni, S., Gamazaychikov, B. (2025). AI Energy Score v2. Hugging Face Blog (déc 2025).
  • Jegham, N., Abdelatti, M., Elmoubarki, L., Hendawi, A. (2025). How Hungry is AI? arXiv:2505.09598 v6.
  • Elsworth, C. et al. / Google (2025). Measuring the environmental impact of delivering AI at Google Scale. arXiv:2508.15734.
  • Mistral AI, Carbone 4, ADEME (2025). Our contribution to a global environmental standard for AI.
  • You, J. / Epoch AI (2025). How much energy does ChatGPT use?
  • IEA (avril 2025). Energy and AI (rapport ~300 pages).
  • Luccioni, S., Jernite, Y., Strubell, E. (2024). Power Hungry Processing. FAccT '24.
  • Anthropic (février 2026). Investing in energy to secure America's AI future.

Checklist : 10 automatisations rapides pour PME bretonnes

Recevez gratuitement notre checklist par email.

Prêt à voir vos plannings autrement ?

En 30 minutes, on identifie ensemble vos quick wins en data et automatisation.