Die Cloud-Computing-Branche ist in den vergangenen zehn Jahren stark gewachsen. Einhergehend mit diesem Wachstum sind neue Anwendungsbereiche entstanden. In einigen Bereichen können Daten jedoch nicht öffentlich ausgetauscht werden und/oder die Verarbeitung erfordert spezielle Hardware, die nah am Nutzenden installiert werden muss. Anforderungen wie extrem niedrige Latenzzeiten, Sicherheit und Ortskenntnis werden zunehmend gestellt; zum Beispiel in Bereichen wie Smart Cities, industrieller Automatisierung und Datenanalyse.
Moderne Cloud-Anwendungen sind zudem komplexer geworden, da sie in der Regel auf verteilten Computersystemen laufen, die in unterschiedliche Softwarekomponenten aufgeteilt sind (engl. „micro services“) und mit hoher Verfügbarkeit laufen müssen. DECICE nimmt sich zwei Herausforderungen an: (1) die Zusammenführung unterschiedlicher Systeme zu zentral gesteuerten Rechenclustern und (2) die Darlegung von Planungs- und Optimierungsentscheidungen für diese Rechencluster.
Planungsentscheidungen für einen Cluster, der aus Cloud- und Edge-Knoten besteht, müssen Merkmale wie die Variabilität der Knoten- und Netzwerkkapazität berücksichtigen. Eine gängige Lösung für die Orchestrierung großer Cluster ist heutzutage Kubernetes. Bei Kubernetes handelt es sich um ein Open-Source-Framework zur Bereitstellung, Skalierung und Verwaltung von container-basierten Anwendungen. Kubernetes ist jedoch für zuverlässige homogene, nicht für heterogene Cluster, ausgelegt. Für Kubernetes gibt es viele Anwendungen und Erweiterungen. Bislang berücksichtigt keine von ihnen die Optimierung von Leistung und Energie oder geht auf die Lokalisierung von Daten und Ausführung von Anwendungen auf heterogenen Infrastrukturen ein.
In DECICE wird ein offenes und portables Cloud-Management-Framework für die automatische und adaptive Optimierung von Anwendungen entwickelt. Hierbei werden Ausführungen von Anwendungen (sogenannte „jobs“) den optimal geeigneten Ressourcen in einer heterogenen Systemlandschaft zugeordnet. Mithilfe von ganzheitlichem Monitoring wird das Projektteameinen digitalen Zwilling des Systems erstellen, der das ursprüngliche System widerspiegelt. Ein intelligenter Scheduler auf Basis von KI-Technologien trifft Entscheidungen über die Platzierung von Jobs und Daten und führt eine Umplanung von Jobs durch, um sich an Systemänderungen anzupassen. Es wird eine virtuelle Umgebung bereitgestellt, die Testdaten für das Training von Modellen des Maschinellen Lernens und die Erkundung von Was-wäre-wenn-Szenarien erzeugt.
Das portable Framework wird in das Kubernetes-Ökosystem integriert und anhand relevanter Anwendungsfälle auf realen heterogenen Systemen validiert. Das HLRS erfüllt neben dem Projektpartner GWDG und der KTH die Rolle eines Infrastrukturanbieters und bringt somit seine Expertise im Bereich Cloud- und HPC-Computing und -Betrieb ein. In diesem Zusammenhang leitet das HLRS das Arbeitspaket zur Integration des Cloud-Management-Frameworks, das Monitoring, HPC-Dienste und KI-Trainings- und Inferenz-Workflows umfasst.
Weitere Informationen
01. Dezember 2022 - 30. November 2025
decice.eu
Künstliche Intelligenz & Datenanalyse
Cloud-Computing
Optimierung & Skalierbarkeit
Converged Computing
EC Horizon Europe
Alle Projekte
Abteilungsleiter, Converged Computing