Les infrastructures de calcul haute performance (HPC, High Performance Computing) traitent des quantités considérables de données pour une multitude d’applications : modélisation climatique, recherche pharmaceutique, ingénierie spatiale… Mais pour cela, elles consomment également une grande quantité d’énergie pour l’alimentation et le refroidissement des machines.
L’intelligence artificielle a aujourd’hui un rôle important à jouer pour résoudre plus rapidement des problèmes extrêmement complexes. Mais elle peut également avoir une double casquette ! Car l’IA présente un potentiel immense pour réduire la consommation énergétique du HPC, en activant différents leviers.
Optimiser l’utilisation des ressources
Les systèmes HPC sont souvent utilisés de manière variable. Une fois la tâche de calcul intensif exécutée, ils peuvent rester inutilisés pendant des périodes plus ou moins longues. Pour pallier cette situation, certains centres mutualisent les infrastructures en louant une partie des ressources à des partenaires ou des utilisateurs externes. L’IA peut aussi les aider. Grâce à des algorithmes d’apprentissage automatique, les administrateurs vont pouvoir prédire la demande de calcul, allouer dynamiquement des ressources et mettre en veille des parties de l’infrastructure lorsque la charge est réduite. Cela va leur permettre d’éviter une consommation inutile d’énergie inutile lors des périodes d’inactivité.
L’IA peut surveiller en temps réel la température des composants et réguler la vitesse des ventilateurs en conséquence.
Réduire le refroidissement
L’une des principale source de consommation d’une infrastructure HPC est le système de refroidissement. Les composants informatiques extrêmement puissants intégrés dans ces plateformes génèrent beaucoup de chaleur et le refroidissement est essentiel pour en garantir le bon fonctionnement. Même si certains serveurs peuvent aujourd’hui tolérer une température ambiante jusqu’à 45° C, l’IA peut être utilisée pour surveiller en temps réel la température des composants et réguler la vitesse des ventilateurs et le débit d’air en conséquence, afin de minimiser la consommation d’énergie.
Optimisation de l’alimentation
L’IA peut surveiller et réguler l’alimentation électrique des machines, que ce soit au niveau d’une machine virtuelle, d’un serveur, d’un rack, d’une rangée ou d’une salle entière. Cela peut permettre d’éviter une panne due à une anomalie électrique ou à une surchauffe par exemple, mais cette capacité peut aussi servir à détecter des serveurs zombis, prédire les pics de consommation ou imaginer des scénarios plus avancés dans lesquels les calculs les plus gourmands en électricité seraient lancés au moment où des sources d’énergie renouvelable seraient disponibles.
L’IA peut identifier des algorithmes plus efficaces, des itérations inutiles ou des calculs redondants, afin de réduire le temps de calcul et donc la consommation d’énergie.
Optimisation des codes et des algorithmes
Une autre manière dont l’IA peut diminuer la consommation d’énergie du HPC est de retravailler les codes et les algorithmes utilisés pour les simulations et les calculs. Grâce au machine learning, l’intelligence artificielle est en effet capable d’identifier des algorithmes plus efficaces, des itérations inutiles ou des calculs redondants, ce qui peut contribuer à réduire le temps de calcul et, par la même occasion, la consommation d’énergie. L’IA peut aussi aider les développeurs à paralléliser les tâches afin d’utiliser plus efficacement les multiples cœurs de calcul.
Maintenance et efficience prédictive
L’IA peut être utilisée pour mesurer la bonne santé des composants et détecter les premiers signes annonciateurs d’une défaillance. L’intérêt est double : éviter une interruption de service en remplaçant un composant avant qu’il ne tombe en panne et maintenir l’efficacité énergétique du système. Les composants défectueux ou vieillissants sont souvent moins performants sur le plan énergétique. En mesurant leur consommation et en la comparant à l’impact de la fabrication et de l’utilisation d’un composant neuf, il est possible d’évaluer avec précision à partir de quel moment le remplacement apporter un bénéfice environnemental.
L’intelligence artificielle offre donc des perspectives prometteuses pour transformer la manière dont ces puissantes machines sont exploitées. L’opportunité est triple pour les chercheurs. Car en optimisant l’usage des infrastructures, ils pourront non seulement réduire l’empreinte énergétique de leurs travaux, mais également obtenir plus rapidement des résultats tout en diminuant le coût global de la recherche.