Dynamisches Power Capping ermöglicht eine bessere Energieeffizienz im HPC

Wissenschaftliches Diagramm, das die Schwankungen des Stromverbrauchs im Laufe der Zeit zeigt, wobei zwei horizontale Linien die Mittelwerte angeben.
Die grüne Linie zeigt den mittleren Stromverbrauch bei Dynamisches Power Capping. Die rote Linie zeigt den mittleren Stromverbrauch während eines Versuchsbetriebs ohne Leistungsbegrenzung im Dezember 2024. Der Versuchbetrieb zeigte sich, dass die dynamische Leistungsbegrenzung eine Energieeinsparung von etwa 20 % ohne erkennbare Leistungsabfall ermöglichte. Bild: HPE/HLRS

Ein am HLRS von Hewlett Packard Enterprise untersuchter Ansatz für das Energiemanagement steuert die Energieverteilung in einem Supercomputer, um die Systemleistung innerhalb eines bestimmten Energiebudgets zu optimieren.

Da Supercomputer immer größer werden, steigt auch ihr Energiebedarf. Dies hat nicht nur Umweltkosten in Form von CO2-Emissionen zur Folge, sondern auch direkte wirtschaftliche Auswirkungen auf die Betriebskosten des Systems und die Investitionskosten für die entsprechende Strom- und Kühlungsinfrastruktur. Bei den heutzutage größeren Systemen müssen Höchstleistungsrechenzentren auf zwei eng miteinander verknüpfte Ziele hinarbeiten: zum einen darf ein Supercomputer nicht mehr Strom als gewünscht verbrauchen und zum anderen muss der Strom, den er verbraucht, so effizient wie möglich genutzt werden. Auf diese Weise wird die größtmögliche Rechenproduktivität auf Basis der verfügbaren Ressourcen gewährleistet.

Seit 2020 arbeitet Hewlett Packard Enterprise (HPE) mit dem Höchstleistungsrechenzentrum Stuttgart (HLRS) gemeinsam an einem neuen Ansatz für das Energiemanagement. Die von ihnen entwickelte Lösung überwacht kontinuierlich, welche Anwendungen auf dem Hawk-Supercomputer des HLRS laufen und passt die den einzelnen Anwendungen zugewiesene Leistung entsprechend ihres spezifischen Energiebedarfs an.

Die Lösung läuft seit Februar 2024 in Produktion auf Hawk. Bei einem Experiment im Dezember 2024, bei dem Hawk vorübergehend ohne Leistungsbegrenzung betrieben wurde, stellte das HPE/HLRS-Team fest, dass die dynamische Leistungsbegrenzung den Gesamtstromverbrauch der Anwendungen um etwa 20 % ohne erkennbare Leistungseinabfall senkte. Die Gesamteinsparung ist vergleichbar mit dem jährlichen Stromverbrauch von etwa 1.500 Einfamilienhäusern.

Das HPE/HLRS-Team hat seinen Ansatz zum dynamischen Power Capping in den Proceedings der 2024 IEEE International Conference on Cluster Computing (CLUSTER Workshops) vorgestellt.

Optimierung des Stromverbrauchs auf leistungsbeschränkten HPC-Systemen

Laut Dr. Ralf Schneider vom HLRS entstand die Idee zur Entwicklung eines dynamischen Power-Capping-Ansatzes, weil der Hawk-Supercomputer des HLRS leistungsbeschränkt ist. „Hawk war so groß, dass die Gefahr bestand, dass er unsere Stromkapazität überlastet“, erklärte er. „Das heißt, wir mussten den Stromverbrauch begrenzen. Gleichzeitig wollten wir die maximale Leistung basierend auf der uns zur Verfügung stehenden Energie aus der Maschine herausholen. Die Strategie von HPE stellt ein Gleichgewicht zwischen stromhungrigen Anwendungen und solchen, die für eine effiziente Ausführung weniger Strom benötigen, her.“

Ein Ansatz, den Rechenzentren zur Kontrolle des Stromverbrauchs verwendet haben, ist die Festlegung einer Obergrenze für den Stromverbrauch eines Supercomputers. Der Stromverbrauch eines Supercomputers hängt von der Anzahl der Prozessoren im System und deren Geschwindigkeit ab. Mit einem „statischen“ Ansatz zur Begrenzung des Stromverbrauchs wird die Geschwindigkeit der Prozessoren gedrosselt, sodass das System nicht seine volle Leistungsfähigkeit ausschöpft. Diese Methode kann zwar den absoluten Stromverbrauch wirksam reduzieren, sich aber negativ auf die Leistung und den Durchsatz von Anwendungen auswirken. In gewissem Sinne kann die statische Leistungsbegrenzung die Fähigkeit von Supercomputern einschränken, ihre Hauptaufgabe zu erfüllen: die schnellstmögliche Durchführung massiv paralleler Simulationen.

Der von HPE und HLRS entwickelte und getestete Ansatz der dynamischen Leistungsbegrenzung zielt darauf ab, dieses Problem zu lösen. Er basiert auf der Tatsache, dass verschiedene Arten von Codes unterschiedliche Leistungsanforderungen haben. Bei rechengebundenen Codes ist die Geschwindigkeit, mit der eine Simulationssoftware ein Ergebnis liefert, einfach eine Funktion der verfügbaren Prozessorgeschwindigkeit – im Grunde läuft ein Code besser, wenn die Systemgeschwindigkeit höher ist. Bei speichergebundenen Codes hingegen hängt die Zeit, die ein Algorithmus zur Ausführung benötigt, weniger von der Prozessorgeschwindigkeit als vielmehr von den Speicher- und Datenübertragungsmöglichkeiten eines HPC-Systems ab. In solchen Fällen führt eine Maximierung der CPU-Geschwindigkeit nicht zu einer Steigerung der Gesamtleistung des Codes, da der Algorithmus ständig auf die Datenübertragung warten muss, bevor er seine nächste Berechnung durchführen kann.

„Das dynamische Power Capping von HPE ist insofern einzigartig, als dass es die unterschiedlichen Leistungsanforderungen dieser beiden Kategorien von Codes innerhalb eines bestimmten verfügbaren Leistungsbudgets ausgleicht“, erklärt Dr. Christian Simmendinger, HPC Performance Engineer bei HPE. „Für speichergebundene Codes kann die verfügbare Leistung deutlich gedeckelt werden, was ohne negative Auswirkungen auf die Anwendungsleistung zu erheblichen Energieeinsparungen führt. Die Leistungsbegrenzung wird automatisch in regelmäßigen Abständen optimiert, um auf sich ändernde Phasen im Betrieb einer Anwendung zu reagieren.“

Das Diagramm zeigt den Stromverbrauch mehrerer Computerschränke über einen Zeitraum von 5 Tagen. Der rot hervorgehobene Bereich zeigt, wie die dynamische Leistungsbegrenzungsfunktion die höheren und niedrigeren Leistungsanforderungen mehrerer kleinerer Anwendungen unterschiedlicher Art ausgleicht. Der gelbe Bereich zeigt, dass die Gesamtleistungsgrenze eingehalten wird, sobald eine große Anwendung auf allen Racks ausgeführt wird. Bild: Simmendinger et al, 2024.

Das Team fand heraus, dass der Ausgleich der verfügbaren Leistung zwischen rechengebundenen und speichergebundenen Codes auch plötzliche Spitzen und Einbrüche im Gesamtsystemstromverbrauch reduziert und einen konsistenten, stabilen Stromverbrauchswert ermöglicht, der die Stromverbrauchsziele des HLRS einhält. Der Ansatz kann auch dynamisch reagieren, wenn das HLRS seine gewünschte Leistungsgrenze ändert.

HPE und das HLRS setzen die von ihnen entwickelte Lösung seit Februar 2024 auf Hawk ein. Wie in einer vom IEEE veröffentlichten wissenschaftlichen Arbeit berichtet wird, hat die sorgfältige Verfolgung und Bewertung der Leistung seither erhebliche Energieeffizienzvorteile bei der Verwendung der dynamischen Leistungsbegrenzung im Vergleich zu einem statischen Leistungsbegrenzungsansatz ergeben. Obwohl die Anwendungen in einigen Fällen etwas langsamer laufen als ohne Leistungsbegrenzung, überwiegen die Energieeffizienzvorteile für den gesamten Systembetrieb bei Weitem diese vernachlässigbaren Verluste.

Dynamisches Power Capping auf zukünftigen HLRS-Systemen

Nach dem erfolgreichen Einsatz auf Hawk freuen sich HLRS und HPE nun darauf, die Fähigkeiten dieser Lösung für die Supercomputer der nächsten Generationen des HLRS, Hunter und Herder, zu erweitern.

Mit dem kommenden Supercomputer Herder, der 2027 am HLRS installiert wird, wird die Optimierung der dynamischen Leistungsbegrenzung besonders wichtig sein. Für den Betrieb des künftigen Systems wird das HLRS bald mit dem Bau einer neuen Anlage beginnen, die bis zu 8 MW Leistung liefern kann. Da der Betrieb einer solchen Anlage teuer ist, wird Herder voraussichtlich nicht dauerhaft mit voller Leistung betrieben werden. Mithilfe der dynamischen Leistungsbegrenzung lässt sich die Energieeffizienz von Anwendungen basierend auf der Systemnutzung und der Energieverbrauchsziele der Universität Stuttgart optimieren.

Dieser innovative Ansatz zur dynamischen Leistungsbegrenzung hat bereits die Aufmerksamkeit der Supercomputing-Community auf sich gezogen. Im Oktober 2024 gewann das HLRS den Datacenter Strategy Award für „Transformation“. Mit dieser Auszeichnung wurden das dynamische Power-Capping-Konzept des HLRS und andere Initiativen gewürdigt, die das Höchstleistungsrechenzentrum ergriffen hat, um die Energieeffizienz und die Nachhaltigkeit bei der Planung seiner künftigen Infrastruktur zu optimieren.

Christopher Williams

Erfahren Sie mehr

Simmendinger C, Marquardt M, Mäder J, Schneider R. 2024. PowerSched – managing power consumption on overprovisioned systems. 2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops).