EE-HPC

Quelloffene Lösungsansätze für Monitoring und Systemeinstellungen für energieoptimierte Rechenzentren
Keyvisual image main

EE-HPC testet einen Ansatz zur Verbesserung der Energieeffizienz von HPC-Systemen durch die automatische, jobspezifische Regulierung von Systemparametern und -einstellungen.

Der Energieverbrauch von Hoch- und Höchstleistungsrechenzentren (HPC-Zentren) ist entscheidend für die Beschaffung und den Betrieb von HPC-Systemen. Die Stromkosten machen über die Standzeit eines HPC-Systems einen wesentlichen Teil der Gesamtkosten aus. Auch bei ganzheitlicher Betrachtung des Ressourcenverbrauchs ist bei HPC-Systemen der Stromverbrauch der dominante Faktor.

Einige große Tier 0/1 HPC-Rechenzentren begrenzen bereits heute den Energieverbrauch von Applikationen und steuern dadurch die Energieaufnahme des Gesamtsystems. Dies ist aber meist auf einfachste Maßnahmen, wie die Begrenzung der CPU-Frequenz oder die Abschaltung ganzer Knoten, beschränkt.

Allerdings bieten moderne Systeme zunehmende Optionen mit einem großen Potential zur Energieeinsparung. Zum Beispiel lässt sich durch eine Anpassung von Systemparametern und Einstellungen in den Laufzeitumgebungen von OpenMP und MPI eine Leistungsverbesserung und dadurch eine effizientere Nutzung der eingesetzten Energie erreichen. Die Spanne der möglichen Optimierung erstreckt sich dabei vom Ausgleich einer globalen Lastimbalance bis zur Optimierung kollektiver Operationen in MPI. Gleichzeitig lassen sich die optimalen Einstellungen schwieriger ermitteln, insbesondere bei HPC-Systemen mit einer Vielzahl an unterschiedlichen Applikationen, in denen eine globale Einstellung der Parameter oft nicht sinnvoll ist.

Ziel von EE-HPC ist die Verbesserung der Gesamtenergieeffizienz von HPC-Rechenzentren. Dies wird erreicht, indem Systemparameter (nicht nur CPU, sondern auch Speichereinstellung sowie Input/Output- und Netzwerkparameter), die einen Einfluss auf den Energieverbrauch haben, optimal auf jeweils laufende Jobs und Jobphasen eingestellt werden. Dieser Ansatz beinhaltet eine umfassende und transparente Regulierung und Optimierung dieser Parameter. Das Projekt wird eine Open-Source-Produktivumgebung zum jobspezifischen Performance- und Energie-Monitoring inklusive Optimierung und Kontrolle von Laufzeit- und Systemparametern bereitstellen.

Die Zusammensetzung des Konsortiums (TIER 0/1, TIER 2 und das DKRZ als zentrale nationale Service-Einrichtung) sowie die Vernetzung der Projektpartner in GCS, NHR-Verbund und Tier 3 Verbünden (HPC.NRW, Konwihr, bwHPC) stellt die breite langfristige Nutzung der Projektergebnisse sicher.

Laufzeit

01. September 2022 -
31. August 2025

Förderung

BMBF - Green HPC call

Projektpartner

  • Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)
  • HLRS, Universität Stuttgart (HLRS)
  • RWTH Aachen University (RWTH)
  • Deutsches Klimarechenzentrum (DKRZ)
  • Hewlett Packard Enterprise (HPE)

Fördergeber

BMBF Logo: Federal Ministry of Education and Research

Kontakt

Jose Gracia

Abteilungsleiter, Scalable Programming Models and Tools

+49 711 685-87208 jose.gracia(at)hlrs.de