Big Data in der Erdbeobachtung
In den letzten zwei Jahrzehnten hat sich die Erdbeobachtung radikal verändert. Eine Vielzahl staatlicher und kommerzieller Satelliten zeichnet ein immer genaueres Bild des Ökosystems Erde. Dabei erzeugen sie eine rasant wachsende Datenmenge. Das Volumen und die Komplexität dieser Daten erfordern völlig neue Wege in der Datenverarbeitung. Der Hochleistungsrechner terrabyte, den das DLR zusammen mit dem Leibniz-Rechenzentrum (LRZ) betreibt, gewinnt aus diesem Datenberg wissenschaftlich und wirtschaftlich wertvolle Informationen.
Der globale Wandel und seine Auswirkungen auf Umwelt und Menschen stellt die Wissenschaft vor große Herausforderungen. Für Lösungsansätze brauchen Forschende direkten Zugriff auf relevante Daten. Der Hochleistungsrechner terrabyte leistet genau das. Er ist mit dem Satellitendatenarchiv des Deutschen Fernerkundungsdatenzentrums (DFD) des DLR vernetzt, sodass Nutzerinnen und Nutzer aus dem DLR und ausgewählten externen Forschungseinrichtungen auf eine umfassende, kuratierte Kollektion an Erdbeobachtungsdaten mit globaler Abdeckung zugreifen können. Zusätzlich lädt das DLR kontinuierlich weitere Daten von anderen Anbietern wie der Europäischen Weltraumorganisation ESA und der amerikanischen Luft- und Raumfahrtbehörde NASA auf terrabyte.
Derzeit liegen etwa 60 Petabyte im Archiv des DFD – das ist die gesammelte Datenmenge der letzten 50 Jahre. Umgerechnet entspricht das in etwa 15 Millionen Spielfilmen. Und täglich kommen mehr als 15 Terabyte neue Daten hinzu. Sie liefern historische und aktuelle Informationen zum Zustand der Erde. Veränderungen können im Detail kartiert werden.
Direkter Zugriff auf relevante Daten
Die Forscherinnen und Forscher des DLR analysieren diese Daten und verarbeiten sie weiter. So zeigten sie beispielsweise, dass sich die Luftqualität während der Corona-Pandemie global verbessert hatte. Die Konzentration des troposphärischen Stickstoffdioxids in Europa und Südostasien sank um mehr als 40 Prozent. Gründe dafür waren sowohl eine geringere Wirtschaftsaktivität als auch das reduzierte Verkehrsaufkommen während des Lockdowns. Dazu wertete terrabyte 1,2 Billionen Einzelmessungen des europäischen Satelliten Sentinel-5P aus.
Mit der Hochleistungsplattform konnten die DLR-Forschenden auch erstmals global die Entwicklung von Siedlungen in einer Auflösung von bis zu zehn Metern kartieren. Dazu werteten sie Daten aus über 40 Jahren aus. „Der entstandene World Settlement Footprint zeigt sogar Straßenzüge und Gebäude. Anhand von ihm kann man deutlich sehen, wie schnell sich die Metropolen der Welt ausdehnen und wo der Siedlungsdruck wächst“, sagt Dr. Mattia Marconcini, der im DFD auf terrabyte arbeitet.
Auch im Bereich des Katastrophenschutzes kann die Hochleistungsplattform unterstützen. Die exakte Erfassung von Überschwemmungsflächen unterstützt Einsatzkräfte bei der schnellen und gezielten Rettung von Flutopfern. Innerhalb einer Dreiviertelstunde stehen ihnen aktuelle Satellitenkarten zur Verfügung. Dafür wertet terrabyte vollautomatisiert Radardaten aus, unter anderem des europäischen Satelliten Sentinel-1. Dessen Sensoren blicken selbst durch dichte Wolken hindurch.
Sichere Daten statt Cloud-Systeme
Bislang nahmen die Wissenschaftlerinnen und Wissenschaftler meist Cloud-Systeme kommerzieller Anbieter wie Amazon Web Services oder Google Earth Engine in Anspruch, um die riesigen Datenmengen zu verarbeiten. Diese Anbieter halten neben den erheblichen Rechenkapazitäten auch Erdbeobachtungsdaten bereit, indem sie europäische und US-amerikanische Daten in ihre Clouds laden. „Allerdings bieten diese Cloud-Systeme nicht die Art von Erdbeobachtungsdaten, die wir für unsere speziellen Anwendungen brauchen“, sagt Prof. Stefan Dech, Institutsleiter des DFD. „Außerdem sind weder die Daten noch die Algorithmen, die wir für die Analyse entwickelt haben, verlässlich vor dem Zugriff Dritter geschützt, sodass langfristig eine Abhängigkeit von den proprietären, kommerziellen Systemen unvermeidlich gewesen wäre. Das war die Motivation für die Entwicklung von terrabyte“, ergänzt Prof. Dech.
„Mit terrabyte wird die Arbeit mit den Erdbeobachtungsdaten einfacher. Anstatt Tage oder Monate brauchen wir für komplexe Berechnungen jetzt mitunter nur Stunden“, führt Dr. Jonas Eberle, Projektmanager von terrabyte, aus. Die Plattform ist spezifisch für Analysen von großen Erdbeobachtungsdatenbeständen ausgelegt. Außerdem können durch aktuelle Softwareanwendungen Programme schnell und einfach übertragen und ausgeführt werden. Diese Dienste und Werkzeuge werden kontinuierlich erweitert, um terrabyte an neue Anwendungen anzupassen und die Nutzung der Rechnerressourcen zu verbessern. Die Erdbeobachtungsdaten werden auch als Analysis-Ready-Daten (ARD) prozessiert und können von den Nutzenden ohne zusätzliche Vorverarbeitungsschritte sofort verwendet und miteinander kombiniert werden.
Mit terrabyte wird die Arbeit mit den Erdbeobachtungsdaten einfacher. Anstatt Tage oder Monate brauchen wir für komplexe Berechnungen jetzt mitunter nur Stunden.
Die Zukunft von terrabyte
Terrabyte wird in den nächsten Jahren zusammen mit dem LRZ kontinuierlich weiterentwickelt. So sollen eine Software für Workflows eingebunden und standardisierte Dienste angeboten werden, mit denen die Verarbeitung vereinfacht wird. Weiterhin arbeiten die Entwicklerinnen und Entwickler an Anwendungen, die Datenbanken automatisiert zur Verfügung stellen können. Terrabyte ist auch Teil des DLR-Projekts Visuelle-Datenanalyse-Plattform (VisPlore). Dessen Ziel ist es, dass interaktive Anwendungen in Zukunft von einem webbasierten System auch auf allen drei HPC-Clustern des DLR ausgeführt werden können. Julian Zeidler vom DFD ist zuversichtlich: „Mit terrabyte ist das DLR im Hinblick auf das stark wachsende Volumen an Erdbeobachtungsdaten sehr gut aufgestellt, um wichtige Informationen zu gesellschaftlichen Herausforderungen und zum globalen Wandel zu liefern.“
Hochleistungsrechencluster im DLR
Terrabyte ist eines von insgesamt drei Hochleistungsrechenclustern (HPC-Cluster) des DLR. CARA und CARO (Computer for Advanced Research in Aerospace) sind leistungsstarke Supercomputer, die extrem hohe Rechenleistungen erzielen. Mit ihnen werden beispielweise Strömungen um einen Flugzeugflügel oder die Simulation des Verhaltens von Treibstoff in einem Raketentriebwerk simuliert (Artikel im DLRmagazin 173).
Ein Beitrag von Anja Philipp aus dem DLRmagazin 175