Artikel aus dem DLRmagazin 175: Eine Plattform für Hochleistungsdatenanalyse

Big Data in der Erdbeobachtung

Blick aus dem Weltraum auf Tokio
Wie sich Städte und Siedlungen entwickeln, zeigt der Blick aus dem Weltraum, hier am Beispiel von Tokio. Die roten Bereiche zeigen Wachstum.

In den letzten zwei Jahrzehnten hat sich die Erdbeobachtung radikal verändert. Eine Vielzahl staatlicher und kommerzieller Satelliten zeichnet ein immer genaueres Bild des Ökosystems Erde. Dabei erzeugen sie eine rasant wachsende Datenmenge. Das Volumen und die Komplexität dieser Daten erfordern völlig neue Wege in der Datenverarbeitung. Der Hochleistungsrechner terrabyte, den das DLR zusammen mit dem Leibniz-Rechenzentrum (LRZ) betreibt, gewinnt aus diesem Datenberg wissenschaftlich und wirtschaftlich wertvolle Informationen.

Der globale Wandel und seine Auswirkungen auf Umwelt und Menschen stellt die Wissenschaft vor große Herausforderungen. Für Lösungsansätze brauchen Forschende direkten Zugriff auf relevante Daten. Der Hochleistungsrechner terrabyte leistet genau das. Er ist mit dem Satellitendatenarchiv des Deutschen Fernerkundungsdatenzentrums (DFD) des DLR vernetzt, sodass Nutzerinnen und Nutzer aus dem DLR und ausgewählten externen Forschungseinrichtungen auf eine umfassende, kuratierte Kollektion an Erdbeobachtungsdaten mit globaler Abdeckung zugreifen können. Zusätzlich lädt das DLR kontinuierlich weitere Daten von anderen Anbietern wie der Europäischen Weltraumorganisation ESA und der amerikanischen Luft- und Raumfahrtbehörde NASA auf terrabyte.

Derzeit liegen etwa 60 Petabyte im Archiv des DFD – das ist die gesammelte Datenmenge der letzten 50 Jahre. Umgerechnet entspricht das in etwa 15 Millionen Spielfilmen. Und täglich kommen mehr als 15 Terabyte neue Daten hinzu. Sie liefern historische und aktuelle Informationen zum Zustand der Erde. Veränderungen können im Detail kartiert werden.

Direkter Zugriff auf relevante Daten

Die Forscherinnen und Forscher des DLR analysieren diese Daten und verarbeiten sie weiter. So zeigten sie beispielsweise, dass sich die Luftqualität während der Corona-Pandemie global verbessert hatte. Die Konzentration des troposphärischen Stickstoffdioxids in Europa und Südostasien sank um mehr als 40 Prozent. Gründe dafür waren sowohl eine geringere Wirtschaftsaktivität als auch das reduzierte Verkehrsaufkommen während des Lockdowns. Dazu wertete terrabyte 1,2 Billionen Einzelmessungen des europäischen Satelliten Sentinel-5P aus.

Rendering des Aosta-Tals aus Satellitenaufnahmen
DLR-Forschende werteten 15.000 Satellitenaufnahmen aus 37 Jahren aus, um zu untersuchen, wie sich die Schneegrenzen im norditalienischen Aosta-Tal verändert haben. Gelb zeigt das Schneedefizit im Jahr 2022 gegenüber dem langjährigen Mittel.

Mit der Hochleistungsplattform konnten die DLR-Forschenden auch erstmals global die Entwicklung von Siedlungen in einer Auflösung von bis zu zehn Metern kartieren. Dazu werteten sie Daten aus über 40 Jahren aus. „Der entstandene World Settlement Footprint zeigt sogar Straßenzüge und Gebäude. Anhand von ihm kann man deutlich sehen, wie schnell sich die Metropolen der Welt ausdehnen und wo der Siedlungsdruck wächst“, sagt Dr. Mattia Marconcini, der im DFD auf terrabyte arbeitet.

Auch im Bereich des Katastrophenschutzes kann die Hochleistungsplattform unterstützen. Die exakte Erfassung von Überschwemmungsflächen unterstützt Einsatzkräfte bei der schnellen und gezielten Rettung von Flutopfern. Innerhalb einer Dreiviertelstunde stehen ihnen aktuelle Satellitenkarten zur Verfügung. Dafür wertet terrabyte vollautomatisiert Radardaten aus, unter anderem des europäischen Satelliten Sentinel-1. Dessen Sensoren blicken selbst durch dichte Wolken hindurch.

Sichere Daten statt Cloud-Systeme

Bislang nahmen die Wissenschaftlerinnen und Wissenschaftler meist Cloud-Systeme kommerzieller Anbieter wie Amazon Web Services oder Google Earth Engine in Anspruch, um die riesigen Datenmengen zu verarbeiten. Diese Anbieter halten neben den erheblichen Rechenkapazitäten auch Erdbeobachtungsdaten bereit, indem sie europäische und US-amerikanische Daten in ihre Clouds laden. „Allerdings bieten diese Cloud-Systeme nicht die Art von Erdbeobachtungsdaten, die wir für unsere speziellen Anwendungen brauchen“, sagt Prof. Stefan Dech, Institutsleiter des DFD. „Außerdem sind weder die Daten noch die Algorithmen, die wir für die Analyse entwickelt haben, verlässlich vor dem Zugriff Dritter geschützt, sodass langfristig eine Abhängigkeit von den proprietären, kommerziellen Systemen unvermeidlich gewesen wäre. Das war die Motivation für die Entwicklung von terrabyte“, ergänzt Prof. Dech.

Rechenleistung von terrabyte

„Mit terrabyte wird die Arbeit mit den Erdbeobachtungsdaten einfacher. Anstatt Tage oder Monate brauchen wir für komplexe Berechnungen jetzt mitunter nur Stunden“, führt Dr. Jonas Eberle, Projektmanager von terrabyte, aus. Die Plattform ist spezifisch für Analysen von großen Erdbeobachtungsdatenbeständen ausgelegt. Außerdem können durch aktuelle Softwareanwendungen Programme schnell und einfach übertragen und ausgeführt werden. Diese Dienste und Werkzeuge werden kontinuierlich erweitert, um terrabyte an neue Anwendungen anzupassen und die Nutzung der Rechnerressourcen zu verbessern. Die Erdbeobachtungsdaten werden auch als Analysis-Ready-Daten (ARD) prozessiert und können von den Nutzenden ohne zusätzliche Vorverarbeitungsschritte sofort verwendet und miteinander kombiniert werden.

Mit terrabyte wird die Arbeit mit den Erdbeobachtungsdaten einfacher. Anstatt Tage oder Monate brauchen wir für komplexe Berechnungen jetzt mitunter nur Stunden.

Dr. Jonas Eberle, Projektmanager terrabyte

Die Zukunft von terrabyte

Terrabyte wird in den nächsten Jahren zusammen mit dem LRZ kontinuierlich weiterentwickelt. So sollen eine Software für Workflows eingebunden und standardisierte Dienste angeboten werden, mit denen die Verarbeitung vereinfacht wird. Weiterhin arbeiten die Entwicklerinnen und Entwickler an Anwendungen, die Datenbanken automatisiert zur Verfügung stellen können. Terrabyte ist auch Teil des DLR-Projekts Visuelle-Datenanalyse-Plattform (VisPlore). Dessen Ziel ist es, dass interaktive Anwendungen in Zukunft von einem webbasierten System auch auf allen drei HPC-Clustern des DLR ausgeführt werden können. Julian Zeidler vom DFD ist zuversichtlich: „Mit terrabyte ist das DLR im Hinblick auf das stark wachsende Volumen an Erdbeobachtungsdaten sehr gut aufgestellt, um wichtige Informationen zu gesellschaftlichen Herausforderungen und zum globalen Wandel zu liefern.“

Hochleistungsrechencluster im DLR

Terrabyte

Terrabyte ist eines von insgesamt drei Hochleistungsrechenclustern (HPC-Cluster) des DLR. CARA und CARO (Computer for Advanced Research in Aerospace) sind leistungsstarke Supercomputer, die extrem hohe Rechenleistungen erzielen. Mit ihnen werden beispielweise Strömungen um einen Flugzeugflügel oder die Simulation des Verhaltens von Treibstoff in einem Raketentriebwerk simuliert (Artikel im DLRmagazin 173).

Trailer Terrabyte LRZ
Das Deutsche Zentrum für Luft- und Raumfahrt (DLR) und das Leibniz-Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften haben ‚terrabyte’ in Betrieb genommen – eine von Europas größten wissenschaftlichen Plattformen zur Analyse von Erdbeobachtungsdaten. Erklärtes Ziel ist, aktuelle und historische Erdbeobachtungsdaten zentral der Wissenschaft öffentlich zugänglich und verwertbar zu machen.

Ein Beitrag von Anja Philipp aus dem DLRmagazin 175

Weiterführende Links

Kontakt

Redaktion DLRmagazin

Deutsches Zentrum für Luft- und Raumfahrt (DLR)
Kommunikation
Linder Höhe, 51147 Köln