13. Juli 2016

Big Data für die Umwelt

Sentinel-1 TimeScan Mosaik aus knapp 1500 Aufnahmen aus dem Zeitraum Mai 2014 und Juli 2016

Eine neue Epoche der globalen Umweltbeobachtung beginnt. Einer der Treiber ist das europäische Erdbeobachtungsprogramm, dessen Sentinel-Satellitenflotte eine bislang ungekannte Flut an Messwerten liefert: kontinuierlich, flächendeckend und kostenlos. Allein Sentinel-1, Sentinel-2 und Sentinel-3 werden ab Ende 2017 täglich ein Datenvolumen von rund 20 TeraByte - 20 000 Gigabyte - aufzeichnen. Dieser Datenstrom erfordert neue Wege im Zugriff, der Verarbeitung und der Analyse der Daten. Im Auftrag des Bayerischen Staatsministeriums für Wirtschaft und Medien, Energie und Technologie hat das EOC gemeinsam mit Partnern aus der Wirtschaft dafür benötigte Technologien entwickelt und erprobt.

Wurden früher einzelne Aufnahmen vom Nutzer heruntergeladen und ausgewertet, müssen die nun verfügbaren Datenmassen direkt an der Quelle, an den Empfangsanlagen und den Speichersystemen verarbeitet werden. Im Forschungsvorhaben „OPUS“ werden die Algorithmen der Nutzer zu den Daten auf Computer-Clustern bzw. in die Cloud gebracht. Datenempfang, Datenarchiv und Verarbeitung werden ideal vernetzt, um maximale Geschwindigkeiten zu erzielen. Anstelle von Rohdaten gelangen mit Hilfe von OPUS nur noch die maßgeschneiderten Informationsprodukte zum Nutzer. Dadurch entfällt der Transfer großer Datenmengen und der Aufbau eigener Rechnerkapazitäten wird überflüssig.

Mit einer in OPUS entwickelten vollautomatischen Verarbeitungskette hat das EOC nun aus knapp 1500 Sentinel-1-Datensätzen testweise ein Satellitenbildmosaik für Deutschland erstellt. In dem sogenannten TimeScan-Produkt werden die Daten nicht nur räumlich, sondern auch zeitlich zusammengefasst. Jeder Bildpunkt wird aus hunderten Einzelszenen berechnet. Da das Radar von Sentinel-1 empfindlich auf die Rauigkeit und Leitfähigkeit/Feuchte des Bodens reagiert, liefert das neue TimeScan-Produkt Informationen zur Beschaffenheit der Oberflächen, die sich z. B. zur Landnutzungsklassifikation nutzen lassen. Im konkreten Fall wurden zur Erstellung des TimeScan-Datensatzes alle im Zeitraum zwischen Mai 2014 und Juli 2016 von Sentinel-1 über Deutschland aufgezeichneten Radar-Aufnahmen systematisch aus dem Strom empfangener Daten extrahiert und prozessiert. Im entsprechenden Falschfarbenbild werden für jeden Bildpunkt im roten, grünen und blauen Kanal, die mittlere, minimale und maximale Rückstreuung wiedergegeben. Städtische Ballungszentren etwa reflektieren durchweg sehr stark. Sie treten als markante helle Flächen in Erscheinung. Wasserflächen reflektieren einen hohen Anteil der schräg einstrahlenden Radarstrahlung vom Satelliten weg, bleiben daher dunkel. Vegetationsbedeckte Regionen zeichnen sich durch ein vergleichsweise hohes Minimum der Rückstreuung aus, weshalb Wälder und Wiesen in grünen Farbtönen wiedergegeben werden. Darüber hinaus ist in dem Produkt die zeitliche Dynamik der Aufnahmen – quasi als weitere Informationsquelle – hoch verdichtet. Landbedeckungstypen, die sich im Aufnahmezeitraum stark verändert haben – etwa Ackerflächen – erscheinen im vorliegenden Produkt lila.

TimeScan komprimiert auf diese Weise den Informationsgehalt unzähliger Aufnahmen zu einem einzigen Produkt mit dem Bruchteil des ursprünglichen Datenvolumens aller Einzelaufnahmen. Diese Datenkompression ist ein Weg, um die jetzt verfügbaren Ströme an Satellitendaten effizient zu nutzen. Dies ist insbesondere mit Blick auf die Umsetzung einer kontinuierlichen Umweltbeobachtung auf Grundlage umfassender Zeitreihen an Erdbeobachtungsdaten von Bedeutung. So arbeiten Wissenschaftler des DFD bereits an Verfahren, die ein detailliertes Abbild der Veränderungen und Dynamik räumlicher Nutzungsmuster liefern. So sollen mit Hilfe der TimeScan-Datensätze zentrale wissenschaftliche Fragestellungen im Zusammenhang mit Aspekten des globalen Wandels, wie z. B. der Urbanisierung, untersucht werden. Darüber hinaus werden derzeit Einsatzszenarien der entwickelten Techniken zur Unterstützung kommerzieller Geoinformationsdienstleister getestet.

Die entwickelte Prozessierungskette wurde zudem prototypisch für Daten der Missionen Landsat, Envisat-ASAR sowie Sentinel-2 umgesetzt. Zugleich konnte das Verfahren erfolgreich auf unterschiedlichen Plattformen implementiert werden. Neben einer klassischen Cloud-Umgebung mit virtuellen Maschinen kommen ein Hadoop-Cluster sowie ein High-Performance Computing Cluster zum Einsatz. In Summe wurden bislang rund 600.000 Datensätze und mehr als 2 Petabyte an Daten verarbeitet.

Der Zugriff auf große Mengen von Sentinel-Daten und deren Verarbeitung auf einer Cloud-Plattform ist auch das Thema des nationalen Copernicus-Portals CODE-DE. Daten und Verarbeitungsmethoden, wie sie im Projekt OPUS entwickelt wurden, werden dabei nationalen Nutzern aus Wissenschaft, Behörden und Firmen zur Verfügung stehen.

Innerhalb der neuen Strategie der Europäischen Kommission, dem Träger des europäischen Copernicus-Programms, sollen solche Plattformen weiter ausgebaut und Nutzer in ganz Europa – und darüber hinaus – zur Verfügung stehen. Big Data in der Erdbeobachtung für Wissenschaft und Geoinformationsindustrie sollen mit dem Konzept des Deutschen Copernicus Zentrums realisiert werden. Mit Unterstützung des bayerischen Wirtschaftsministeriums und in Kooperation mit Firmen, verfolgt das DFD die Einrichtung solcher Plattformen.