25. Januar 2017

500 Terabyte (TB) komprimiert in einem Bild - Big Data in der Erdbeobachtung

Die europäischen Sentinel-1, Sentinel-2 und Sentinel-3-Missionen werden bis Ende des Jahres 2017 ein tägliches Datenvolumen von mehr als 20 TB generieren. Angesichts dieser Datenmengen sind neue Auswerteverfahren erforderlich, wie der vom EOC entwickelte und nun erfolgreich getestete TimeScan-Prozessor. Das Verfahren destilliert aus einer Vielzahl von Satellitenaufnahmen über einen größeren Zeitraum ein einziges Informationsprodukt. In dem jetzt veröffentlichten „TimeScan-Landsat-2015“-Produkt wurden über 450.000 Aufnahmen des amerikanischen Landsat-Satelliten aus dem Zeitraum 2013 bis 2015 verarbeitet.

Abbildung 1: Globaler TimeScan-Landsat-2015 Datensatz
dargestellt als Falschfarbenkomposit aus temporalem Mittelwert des Bebauungsindex (NDBI) in rot, des Vegetationsindex (NDVI) in grün und des Wasserindex (NDWI) in blau.

Rund 500 Terabyte an Einzelaufnahmen wurden so auf ein Zwanzigstel der ursprünglichen Größe komprimiert und können in Form einer einzigen globalen, wolkenfreien Aufnahme analysiert werden. Dabei handelt es sich nicht um ein einfaches Satellitenbildmosaik. Stattdessen wurde der Informationsgehalt der multispektralen Aufnahmen in Statistiken zusammengefasst, die über den gesamten Aufnahmezeitraum und unter Einbeziehung der verschiedenen Spektralkanäle berechnet wurden und eine Analyse der Landoberfläche erlauben. Unter anderem umfasst dies Indizes zum Vegetationszustand, der Wasserbedeckung oder der Besiedelung. Dabei werden für jeden erfassten Parameter über den gesamten Zeitraum von 2013 bis 2015 Minimum, Maximum und Mittelwert ermittelt.

Das Verfahren ist für die Inwertsetzung enormer Datenmassen ausgelegt und soll Endnutzern ermöglichen, die Informationen aus solchen – bislang für sie nicht handhabbaren – Datenmengen zu erschließen. Anders als bisher werden die verwendeten Satellitenaufnahmen daher nicht mehr zum Nutzer transferiert, sondern auf großen Rechenclustern verarbeitet, idealerweise unmittelbar dort, wo die Daten empfangen werden. Dadurch entfällt die Verteilung immenser Datenmengen an eine Vielzahl einzelner Nutzer, die für ihre Auswertungen zudem auch keine eigene Rechnerinfrastruktur vorhalten müssen. Vielmehr wird nur mehr das Endprodukt der Auswertung an den Endnutzer geliefert - und dessen Größe nimmt lediglich einen Bruchteil des ursprünglichen Eingangsvolumens an Daten ein.

Um das Verfahren zu testen, wurde der TimeScan-Prozessor auf das Super-Computing-Center IT4Innovations in Ostrava-Poruba in Tschechien transferiert und dort zur Berechnung des bislang einzigartigen globalen TimeScan-Landsat-2015 eingesetzt (Abbildung 1). „Unser globaler Datensatz hat eine räumliche Auflösung von 30 m pro Bildpunkt. Dafür mussten wir - inklusive aller Zwischenprodukte - insgesamt mehr als 1,5 Petabyte an Daten verarbeiten“, berichtet Soner Üreyen als einer der beteiligten Wissenschaftler. „Die Landsat-Mission hat in den letzten vier Jahrzehnten über vier Millionen einzelne Szenen aufgezeichnet und eignet sich daher ideal, um die Verarbeitung von Massendaten zu testen, wie sie uns das Sentinel-Programm in den nächsten Jahren liefern wird.“

Der TimeScan-Landsat-Prozessor verfügt über ein Modul, das die benötigten Landsat-Szenen aus verschiedenen Datenbanken automatisiert herunterladen kann. Anschließend werden in den Aufnahmen Wolken maskiert und - optional – der Einfluss der Atmosphäre herausgerechnet. Nachfolgend werden ausgewählte spektrale Indizes berechnet. „Somit kann unter Berücksichtigung aller gültigen Eingangswerte, d.h. Zeitpunkte ohne Wolkenbedeckung, das spektrale Verhalten über den gewählten Zeitraum hinweg ermittelt und zur effektiven Bestimmung der Landbedeckungsart genutzt werden“, sagt EOC Wissenschaftler Mattia Marconcini (siehe Abbildung 2). „Dabei muss im Gegensatz zur Menge der ursprünglichen Eingangsdaten nun mehr ein deutlich geringerer Umfang an Daten verarbeitet und analysiert werden.“

Das TimeScan-Landsat-2015-Produkt ist auf der vom EOC koordinierten „Urban Thematic Exploitation Platform“ (U-TEP) verfügbar und kann über den U-TEP Geobrowser eingesehen werden. U-TEP ist eine von sechs „Earth Observation Exploitation“-Plattformen. Die Initiative wurde 2014 von der ESA ins Leben gerufen, um in Vorbereitung auf die europäischen Sentinel-Missionen neue Techniken zur Informationsgewinnung aus Erdbeobachtungsdaten zu entwickeln.

Laut Projektleiter Thomas Esch wird der neue Datensatz im Rahmen des U-TEP Projektes zur Erstellung unterschiedlicher siedlungsbezogener Geo-Informationsprodukte eingesetzt. „Wir können damit bebaute Flächen in einer bisher unerreichten Genauigkeit global automatisiert kartieren. Dafür werten wir den Datensatz zusammen mit einem komplementären Produkt aus, das auf Basis von Sentinel-1 Radaraufnahmen gerechnet wurde. Darüber hinaus leiten wir mit seiner Hilfe weltweit Bebauungsdichten und Grünflächenanteile innerhalb von Siedlungsgebieten ab.“ Um auch die zeitliche Entwicklung der Siedlungen zu erfassen, arbeiten die EOC-Wissenschaftler bereits an der Erstellung von globalen TimeScan-Landsat-Datensätzen für weiter zurückliegende Zeitschnitte (siehe Abbildung 3).

Abbildung 3: TimeScan-Landsat-Produkt für die Region um die Stadt Ariquemes, Brasilien, abgeleitet für die Jahre 1985 (links) und 2015 (rechts).
Aus dem Vergleich der beiden Falschfarbenkomposite mit dem temporalen Maximum des Bebauungsindex in rot, dem Vegetationsindex in grün sowie dem temporalen Mittelwert des Wasserindex in blau geht klar hervor, wie sich die Siedlung (rote Farbe), aber auch die landwirtschaftliche Fläche (gelb und orange) im Laufe der Jahre weit in die vegetationsreiche Umgebung (grün) ausgedehnt haben.

Die Entwicklungen sollen Wissenschaftler und Entscheidungsträger in Planungs- und Umweltbehörden oder in Entwicklungsbanken unterstützen und zu einem besseren Verständnis des weltweiten Phänomens der Urbanisierung beitragen. Die bereits existierenden und künftig auf Basis von Sentinel-Daten abgeleiteten TimeScan-Datensätze bieten jedoch auch außerhalb des urbanen Kontexts ein großes Potenzial für ein breites Anwendungsspektrum, z.B. für Forschungsfragen mit Bezug auf Landbedeckungs- und Landnutzungskartierungen, Landwirtschaft, Forstwirtschaft, Überwachung von Polar- und Küstenregionen, Risikomanagement, Katastrophenvorsorge oder Ressourcenmanagement.

Links