Dark Data beleuchtet

Photo of Björn Schembera.
Björn Schembera. Foto: Thomas Bernhardt.

In seiner Doktorarbeit am HLRS schlägt Informatiker Björn Schembera Strategien vor, um wertvolle Forschungsdaten produktiver und langfristiges Datenmanagement an HPC-Zentren effizienter zu machen.

Simulationen in Höchstleistungsrechenzentren (HPC-Zentren) erzeugen riesige Datenmengen. Nach einem Forschungsprojekt bleiben potenziell wertvolle Daten jedoch allzu oft ungenutzt und belasten lediglich Server zur Langzeitspeicherung, während sich die Forscher anderen Themen widmen.

Veröffentlicht am

In einer Publikation in der March 2020 Ausgabe des Journals Philosophy & Technology kategorisierten HLRS-Informatiker Björn Schembera und Wissenschaftsphilosoph Juan Durán in einer Publikation solche Daten als Dark Data. Aus der Astrophysik ist bekannt, dass dunkle Materie einen beträchtlichen Anteil der Masse des Universums ausmacht, auch wenn sich das nicht beobachten lässt; genauso kann Dark Data unmarkiert, unorganisiert und für Forscher unnütz unzählige Petabyte an Speicherplatz füllen.

Die Anhäufung von Dark Data in HPC-Zentren führt zu mehreren Problemen. So erfordert die Erstellung, Speicherung und Kuratierung großer Datensätze beträchtliche Kosten, etwa für den Bau immer größerer Datenspeicher und deren Stromversorgung. Aus wissenschaftlicher Sicht bedeutet das Verschwinden von Dark Data auf Servern einen Verlust für Informatiker und Ingenieure, die vom Zugang zu diesen Daten profitieren würden. Dark Data birgt auch sicherheitstechnische oder rechtliche Risiken, insbesondere bei persönlich identifizierbaren Daten und Dateneigentum.

„Der Begriff Dark Data wurde schon in anderen Zusammenhängen erörtert“, so Schembera, „aber wir wollten ihn speziell im Kontext des Hoch- und Höchstleistungsrechnens besser verstehen. Die Arbeit war der erste Schritt zur Aufdeckung von Strategien, um die Anhäufung von Dark Data zu minimieren.“ In seiner kürzlich abgeschlossenen Doktorarbeit schlägt Schembera mehrere mögliche Lösungen für dieses Problem vor.

Ursachen und Auswirkung von Dark Data

Während seiner Doktorarbeit am HLRS arbeitete Schembera in der Abteilung Project & User Management and Accounting, die das Datenmanagement am Zentrum überwacht. So bekam er direkt mit, wie Daten am Zentrum erstellt, gespeichert und genutzt werden, und er deckte zwei Hauptquellen für Dark Data auf.

Oft werden Daten zu Dark Data wegen fehlender oder schwer interpretierbarer Metadaten, also standardisierter Informationen über strukturgebende Datensätze. Wissenschaftler haben meistens weder Zeit noch Interesse, ihre Daten sorgfältig zu markieren, und verwenden oft individuelle Ad-hoc-Ablagesysteme ohne systematische Kennzeichnung zur Datenorganisation. Das mag inmitten eines laufenden Simulationsprojekts ausreichen; später aber wird es häufig äußerst schwierig, zu rekonstruieren, was die Daten bedeuten, oder den Bezug zwischen ihnen und anderen relevanten Daten zu erkennen.

Dark Data entsteht auch, wenn Nutzer von HPC-Systemen inaktiv werden. Ein Beispiel: Nach Abschluss einer Simulation am HLRS speichern HPC-Systeme Daten auf einem Datenserver und verschieben diese später zur Langzeitspeicherung auf Magnetbänder. Wenn Wissenschaftler aber aus dem Zentrum ausscheiden, beansprucht oft niemand mehr die Daten.

Schembera weist darauf hin, dass die Anhäufung von Dark Data dem Zentrum durch die Datenspeicherung Geld kostet. Außerdem birgt Dark Data im Falle von personenbezogenen Daten sicherheitstechnische und rechtliche Risiken und steht außerdem im Widerspruch zu den FAIR-Prinzipien (Findability, Accessibility, Interoperability und Reusability), welche die besten Praktiken zur Datenverwaltung und -wiederverwendung festlegen. Die Vermeidung von Dark Data könnte daher den Betrieb und die wissenschaftliche Produktivität von HPC-Zentren in mehrfacher Hinsicht verbessern.

Der Scientific Data Officer (SDO)

Schemberas Argumentation: Da akademischen HPC-Nutzern das Interesse fehlt, Dark Data zu vermeiden, müssen Höchstleistungsrechenzentren das Problem lösen. In der gemeinsamen Publikation von Schembera und Durán wird vorgeschlagen, dieses Problem über eine neue Position an Höchstleistungsrechenzentren anzugehen, den wissenschaftlichen Datenbeauftragten (SDO).

Genau genommen wäre der SDO ein Experte für Datenmanagement und HPC-Tools, der zwischen Forschern, Administratoren und der Leitung eines HPC-Zentrums als Schnittstelle fungiert, damit die besten Praktiken bei der Datenverwaltung befolgt werden. Die Aufgaben des SDO würden die Umsetzung und Pflege eines standardisierten Metadaten-Rahmens zur Kennzeichnung von Daten entsprechend den FAIR-Standards umfassen sowie die Unterstützung bei der Verwaltung und beim Abruf gespeicherter Daten.

Darüber hinaus würde der SDO dafür sorgen, dass weniger Dark Data an einem HPC-Zentrum gespeichert wird. Dazu könnte die Identifizierung von Daten in Verbindung mit inaktiven oder gelöschten Nutzern gehören, die aus dem System entfernt werden könnten, die Bewertung von den übrigen Daten hinsichtlich möglicher Speicherung, und die Entscheidungsfindung bezüglich der Datenverwaltung.

Automatisierte Metadaten-Kuratierung

Angesichts der enormen Datenmengen, die an HPC-Zentren wie dem HLRS generiert werden, ist deren Organisation über Metadaten eine Mammutaufgabe für Forscher oder einen etwaigen SDO.

In seiner Dissertation schlägt Schembera zur Lösung dieses Problems ein Metadaten-Modell namens EngMeta vor, das einen standardisierten Rahmen für die Kategorisierung und Organisation von Forschungsdaten im Bereich Computational Engineering vorgibt. Er erweitert diesen Rahmen auch durch die Entwicklung von Software zur Automatisierung der Metadaten-Extraktion. Obwohl ein solches Tool derzeit die Unterstützung eines SDO oder Forschers benötigen würde, um wichtige fachgebietsspezifische Schlüsselwörter festzulegen, könnte es in seinen Augen den oft mühsamen Prozess der Metadaten-Verwaltung als automatisierter Teil des Simulations-Workflows vereinfachen.

Letztlich sieht Schembera in diesen Vorschlägen das Potenzial, die Produktivität und Effizienz von HPC-Zentren in mehrerlei Hinsicht zu verbessern. Wird weniger Dark Data generiert und gespeichert, könnten Rechenzentren wirtschaftlich effizienter und – mit Blick auf den Energiebedarf großer Computerserver – umweltfreundlicher werden. Durch eine besser organisierte und zugänglichere Archivierung der richtigen Daten aus früheren Simulationen könnten diese auch besser zur Wissenschaft beitragen.

— Christopher Williams

Mehr erfahren

Schembera B, Durán JM. 2020. Dark data as the new challenge for big data science and the introduction of the Scientific Data Officer. Philos Technol. 33:93-115.