Intelligence artificielle

Quel est l’impact environnemental d’une IA générative ?

Enseigner à l’ère de l’IA

L’essor fulgurant de l’intelligence artificielle générative transforme profondément de nombreux secteurs d’activité, de la santé à la finance en passant par la recherche et la sécurité. Il questionne également le monde de l’éducation. Toutefois, les avancées impressionnantes de l’IA ne sont pas sans soulever de nombreuses questions, notamment quant aux coûts énergétiques et environnementaux des algorithmes et des modèles d’apprentissage automatique sur lesquels elle repose.
Cet article de vulgarisation offre une base de connaissances donnant des clés de décryptage ainsi que quelques pistes de réflexion pour un usage éclairé et raisonné des IA génératives d’un point de vue environnemental.

Mis à jour le jeudi 7 novembre 2024

Pourquoi une IA générative consomme-t-elle autant d’énergie ?

Même s’il demeure difficile de quantifier précisément la puissance électrique consommée par une requête Google ou ChatGPT, en raison de la complexité de la chaîne énergétique mobilisée et de l’opacité entretenue par les principaux géants du web, la connaissance des ordres de grandeurs suivants est instructive.

Une requête d’environ 400 tokens sur ChatGPT / GPT-4o mini (modèle à 35 milliards de paramètres) consomme environ 2 Wh [1] d’électricité (ou 2 g de CO₂ rejeté) [2], soit plus de 6 fois la consommation d’une recherche Google classique estimée à 0,3 Wh [3]. Pour un modèle moins frugal tel que Meta / Llama 3.1 405B (405 milliards de paramètres) une requête d’environ 400 tokens consomme 55 Wh (équivalent à 55 g de CO₂ émis) !
La création d’une image en haute définition par une IA consomme autant d’énergie que la recharge complète d’un téléphone portable.
Les centres de données (data centers) liés à l’IA et aux crypto-monnaies ont consommé près de 460 TWh (460×10¹² Wh) d’électricité en 2022, soit environ 2% de la production mondiale. De nombreux experts s’accordent à dire que ce pourcentage aura vraisemblablement doublé d’ici 2026 [4].

Tableau comparant l’impact énergétique de deux modèles d’IA - www.comparia.beta.gouv.fr

Voir la transcription

OpenAI/GPT-4o mini
Le plus petit des deux modèles sur lesquels repose ChatGPT d’OpenAI, lancé en juillet 2024.
Impact énergétique de la discussion :
– Taille du modèle : 35 milliards paramètres
– Taille du texte : 396 tokens
– Energie consommée : 1.83 Wh
Ce qui correspond à :
– 1.83 g de CO2 émis
– 35 min de fonctionnement d’une ampoule LED
– 3 min de fonctionnement d’une vidéo en ligne

Meta/Llama 3.1 405B
Sorti en juillet 2024, ce modèle est le plus grand modèle de la série Llama de Meta, optimisé pour des tâches complexes de programmation, de mathématique et de raisonnement.
Impact énergétique de la discussion :
– Taille du modèle : 405 milliards paramètres
– Taille du texte : 377 tokens
– Energie consommée : 55 Wh
Ce qui correspond à :
– 55 g de CO2 émis ;
– 17h00 de fonctionnement d’une ampoule LED ;
– 1h00 de fonctionnement d’une vidéo en ligne.

Les LLM (Large Language Model) des IA génératives s’appuient sur des réseaux profonds de neurones artificiels qui essaient d’imiter les processus en jeu dans le cerveau humain. L’entraînement [5] (Deep learning) et l’inférence [6] des réseaux profonds de neurones artificiels nécessitent une puissance de calcul considérable afin de traiter un nombre colossal de données (Big Data). Ces calculs sont assurés par des processeurs GPU (Graphics Processing Unit) [7] spécifiques dédiés aux IA génératives tel que le "Nvidia A100 tensor core GPU" dont la puissance électrique consommée est de 250 W et dont le prix dépasse les 10 000 euros. Ces GPU ultraperformants et très haut de gamme dérivent de ceux présents dans les cartes graphiques des "PC gamer" utilisés par les joueurs de jeux vidéo.

À titre d’exemple, il a fallu 2048 GPU A100 pour entraîner en février 2023 pendant 23 jours le modèle d’IA générative LLaMA 1 propulsé par le géant du web Meta.

Les modèles déployés à grande échelle, comme ceux utilisés dans des applications comme les assistants vocaux (Siri, Alexa) ou les services de recommandation, nécessitent des ressources de calcul permanentes qui consomment de l’énergie électrique en continu.

Le cerveau est composé d’environ 86 milliards de neurones. Chaque neurone est connecté en moyenne à environ 2 000 autres par des connexions appelées synapses. Le cerveau humain contient donc environ 172 000 milliards de synapses dont chacune d’entre elles peut effectuer "un calcul" élémentaire plusieurs centaines de fois par seconde [8]. D’une manière très simplifiée, on peut donc estimer que la puissance de calcul de l’ensemble du cerveau humain est donc d’environ 17,2×10¹⁵ OPS [9], c’est-à-dire dix-sept millions deux cent mille milliards d’opérations par seconde pour une puissance consommée de 20 W équivalente à celle d’une lampe à LED !

À titre de comparaison l’un des fleurons des processeurs GPU, le "NvidiaA100 Tensor Core GPU" utilisé par beaucoup de modèles d’IA génératives, a une puissance brute de calcul d’environ 19,5×10¹² OPS ce qui, en terme d’ordre de grandeur, revient à un millième de celle du cerveau humain pour une puissance consommée de 250 W !

Le cerveau humain a une puissance brute de calcul 1000 fois plus grande que celle du meilleur processeur GPU actuel pour une puissance consommée 10 fois plus faible !

Pour reprendre l’exemple des 2048 Nvidia A100 Tensor Core GPU nécessaires, par exemple, pour l’entraînement du modèle LLaMA 1de Meta en 2023, l’écart avec les performances énergétiques d’un cerveau humain devient abyssal. Pour une puissance brute de calcul du même ordre de grandeur que celle du cerveau humain, la puissance consommée par l’IA de Meta est 25 600 fois plus importante ! N’oublions pas également qu’une IA est spécialisée dans un domaine bien précis (générer des textes, des images...) alors que le cerveau humain est par essence multitâche.
Nous sommes donc très loin du mythe du grand remplacement des humains par les IA, tant d’un point de vue des performances, que de la puissance consommée.

Pour exécuter une seule tâche spécialisée (générer un texte, une image...) et pour arriver à une puissance brute de calcul du même ordre de grandeur que celle d’un cerveau humain, la puissance consommée par une IA est environ 25 000 fois plus grande ! Contrairement à une IA générative, le cerveau humain est résolument multitâche et est une merveille d’optimisation énergétique.

Le simulateur en ligne EcoLogits s’appuie sur une bibliothèque Python qui permet de comparer la consommation d’énergie et l’empreinte environnementale liées à l’utilisation des grands modèles de langage d’IA génératives lors de la phase d’inférence par le biais d’API.

Cet outil est développé et maintenu par GenAI Impact, organisation à but non lucratif dédiée à l’évaluation et à la mise en évidence de l’empreinte environnementale des technologies d’IA générative.

Quels sont les principaux facteurs influençant la consommation énergétique des IA génératives ?

L’augmentation croissante du nombre de neurones artificiels permet de traiter des problèmes de plus en plus complexes afin de répondre aux besoins croissants des entreprises et du grand public. Leur agencement en couches permet de rendre de plus en plus précises les prédictions permettant de générer du contenu. Toutefois, cela s’accompagne d’un accroissement quasi exponentiel de la puissance de calcul et, par voie de conséquence, de la consommation électrique. Les modèles d’IA générative les plus avancés tels que ChatGPT-4, Gemini Ultra ou LLaMa-3 utilisent des centaines de milliers de milliards de paramètres afin de faire varier, lors du processus d’apprentissage, les poids des signaux à l’entrée des neurones artificiels.

La consommation énergétique est corrélée à la longueur d’une requête, c’est à dire au nombre de tokens [10] constituant le prompt et devant faire l’objet d’un traitement par le réseau profond de neurones. La consommation d’énergie est également proportionnelle au nombre de requêtes devant être traité par unité de temps par les serveurs ce qui définit la charge de ces derniers.

Depuis plusieurs années, les IA spécialisées ont envahi de nombreux secteurs d’activité grâce à leur capacités prédictives remarquables permettant, entre autres, de repérer des anomalies ou des motifs (patterns) particuliers dans des collections de données de très grande taille. Analyse de données boursières ou météorologiques, de codes informatiques, de clichés d’imagerie médicale, de sons, de flux de circulation... L’IA est désormais présente partout et est utilisée d’une manière intensive. La généralisation de ses usages quotidiens auprès du grand public, notamment à travers les services et applications proposés sur les smartphones (reconnaissance vocale, assistant intelligent, GPS...), a conduit à une explosion des besoins en puissance de calcul et donc en énergie.

Les serveurs utilisés pour l’IA générative consomment énormément d’énergie car ils sont très sollicités. Par exemple, un serveur à base de processeurs Nvidia DGX A100, qui est le standard du marché pour l’IA, consomme 6,5 kWh soit plus qu’un sèche linge ! Sachant que l’entrainement et l’inférence des LLM les plus performants nécessitent plusieurs milliers de ce type de serveurs fonctionnant 7 jours sur 7, 24 heures sur 24, la consommation électrique des "data centers" qui hébergent ces machines est colossale. De plus, une grande partie de l’énergie utilisée pour produire l’électricité nécessaire provient encore de sources non renouvelables comme le charbon, le pétrole et le gaz.

L’utilisation de ces sources carbonées entraîne donc des émissions massives de CO₂. On estime par exemple que durant sa phase d’entraînement initiale, ChatGPT-3 a émis plus de 500 tonnes d’équivalent CO₂. Cela équivaut environ aux émissions de 10 voitures, à moteur thermique, au cours de leur durée de vie. Ces phases d’entraînement peuvent se dérouler plusieurs fois chaque année et elles représentent plus de 90 % de la consommation électrique globale liée au fonctionnement des IA.

En outre, les GPU des serveurs utilisés par l’IA étant très sollicités, ils produisent énormément de chaleur. Cette chaleur est évacuée par un système de refroidissement à eau (watercooling) qui sert de fluide caloporteur. Lors du processus de refroidissement, une partie de l’eau est perdue par évaporation. Un rapport récent de l’université de Californie à Riverside indique [11] que le traitement de 10 à 50 requêtes par les modèles d’IA les plus performants consomme environ 2 L d’eau pour assurer le refroidissement des serveurs. Des entreprises comme Microsoft et Google rapportent une hausse significative (20 à 30 %) de leur consommation d’eau ces deux dernières années, mettant en évidence l’impact environnemental croissant de l’IA.

Vers des IA et des usages plus éco-responsables ?

Face aux défis environnementaux, les géants du web et les fondeurs de GPU dédiés à l’IA telle que la société Nvidia, travaillent conjointement, à la mise en œuvre des technologies du futur, dans les fermes de serveurs, pour réduire drastiquement les rejets de CO₂ ainsi que la consommation d’eau et d’électricité. Par exemple, l’industrie des semi-conducteurs s’est engagée depuis plusieurs années dans la production de composants électroniques à faible consommation électrique et émission de chaleur, et ce sans pour autant sacrifier leur performance.

L’implantation géographique des data centers en fonction des conditions climatiques locales (les zones tempérées sont à privilégier) et de l’accès à de l’électricité de proximité d’origine renouvelable (énergie solaire, éolienne, hydroélectrique, géothermique...), doit désormais également être prise en compte.

Enfin, l’optimisation du code des algorithmes permettant de moins dépenser de ressources machines durant la phase d’entrainement des IA génératives, est également une piste sérieuse d’amélioration. En outre, certains développeurs travaillent sur des modèles d’IA embarqués localement sur des smartphones et utilisant exclusivement les ressources machines forcément limitées de ceux-ci. Par exemple, le modèle LlaMa-3-8b est 10 fois plus petit en terme de taille que ChatGPT 3.5 mais est aussi puissant que ce dernier pour certaines tâches spécialisées. Cette voie vers des IA embarquées hyper spécialisées et énergétiquement frugales, semble être prometteuse.

Les quelques recommandations suivantes appliquées aux utilisateurs peuvent contribuer à réduire significativement l’empreinte carbone des IA génératives.

Prioriser les usages à forte valeur ajoutée :

Utiliser préférentiellement les IA pour effectuer des tâches complexes qui nécessitent réellement leurs capacités avancées.
Éviter de recourir aux IA génératives pour de simples recherches d’informations qui peuvent être effectuées avec des outils moins énergivores. Un simple moteur de recherche correctement utilisé fera l’affaire dans la plupart des cas !

Optimiser les requêtes :

Formuler dans un prompt des questions précises et concises pour obtenir des réponses plus ciblées.
Éviter les conversations prolongées inutiles avec les chatbots IA. Une IA doit rester un simple outil sans que l’utilisateur fasse preuve d’anthropomorphisme.

Éduquer les utilisateurs aux enjeux environnementaux de l’IA :

S’informer sur l’impact environnemental des IA génératives.
Partager ses connaissances avec son entourage familial et au sein de son organisation professionnelle.
Privilégier les fournisseurs d’IA qui s’engagent dans des démarches de réduction de leur empreinte carbone en favorisant les énergies renouvelables.

Cela peut aussi vous intéresser

Intelligence artificielle : évolution ou révolution ?
Créativité et apprentissages : comment intégrer l’IA générative dans sa pédagogie ?
IA générative : l’art du prompt
Comment une IA générative crée-t-elle du texte ?

[1] Un wattheure (symbole Wh) est une unité physique correspondant à l’énergie consommée ou délivrée par un système d’une puissance de 1 Watt fonctionnant pendant une heure.

[2] Cela correspond à 35 min de fonctionnement d’une ampoule LED ou 3 min de visionnage d’une vidéo en ligne. Notons que la conversion Wh équivalent CO₂ dépend fortement du mix énergétique nécessaire à l’alimentation en électricité des fermes de serveurs dédiées à l’IA. Elle varie donc fortement d’un pays à un autre.

[3] Cette différence peut s’expliquer facilement par le fait que les IA génératives ne se contentent pas d’extraire des informations existantes, mais génèrent de nouvelles données via un processus beaucoup plus énergivore.

[4] Article à consulter.

[5] La phase d’entraînement d’une IA générative consiste à exécuter une multitude d’itérations de manière cyclique à partir d’un nombre considérable de données en entrée afin qu’en sortie la prédiction se rapproche le plus possible du résultat attendu. Le processus d’apprentissage d’un réseau profond de neurones artificiels repose sur le réglage automatisé de centaines de milliards de paramètres via, par exemple, un processus de rétropropagation par descente de gradient. Une fois entraîné, le réseau de neurones est prêt à être utilisé.

[6] Durant la phase d’inférence, le réseau de neurones artificiels est alimenté par des données réelles qui ne figurent généralement pas dans son jeu initial de données d’entraînement. Néanmoins, si la phase d’apprentissage s’est déroulée correctement, il devrait être en capacité de fournir une bonne réponse aussi souvent que possible.

[7] Les GPU (Graphics Processing Unit) sont préférés aux CPU (Central Processing Units) pour les applications d’intelligence artificielle en raison de leur capacité à effectuer des calculs parallèles d’une manière massive, ce qui est essentiel pour les algorithmes de "deep learning" qui reposent sur des opérations matricielles complexes d’algèbre linéaire. Contrairement aux CPU, conçus pour gérer des tâches diversifiées mais séquentielles, les GPU possèdent des milliers de cœurs (cores) optimisés pour exécuter simultanément de nombreuses tâches élémentaires. Ils offrent également une meilleure bande passante mémoire et sont largement pris en charge par les bibliothèques (frameworks) Python d’IA comme TensorFlow et PyTorch, ce qui permet d’entraîner des modèles beaucoup plus rapidement et de manière plus efficace.

[8] Article à consulter sur Wikipédia.

[9] OPS : Opérations Par Seconde.

[10] Un token (jeton) est une unité de base utilisée dans le traitement automatique du langage naturel (TALN) pour modéliser un texte. Il peut être une ponctuation, un mot ou une sous-unité plus petite comme un morphème. Chaque token est repéré par un identifiant (Id) unique propre à chaque LLM.

[11] Rapport en anglais - "Making AI Less “Thirsty” : Uncovering and Addressing the Secret Water Footprint of AI Models"

Article rédigé par David Latouche

Intelligence artificielle

Quel est l’impact environnemental d’une IA générative ?

Enseigner à l’ère de l’IA

Pourquoi une IA générative consomme-t-elle autant d’énergie ?

Quelques chiffres clés à avoir en tête

L’apprentissage profond et l’inférence sont énergivores

L’IA est très loin de l’optimisation énergétique réalisée par le cerveau humain

Comparer le coût énergétique et environnemental des grands modèles de langage

Quels sont les principaux facteurs influençant la consommation énergétique des IA génératives ?

La complexité des modèles de LLM utilisés

Le nombre de requêtes et leurs longueurs

Le nombre d’utilisateurs

L’infrastructure matérielle

Vers des IA et des usages plus éco-responsables ?

Vers des IA plus respectueuses de l’environnement ?

Vers des usages raisonnés des IA génératives ?

Cela peut aussi vous intéresser

Dans la même rubrique