EnMAP mit neuem L2A-Datenprodukt als Wegbereiter Hyperspektraler KI-Modelle für die Erdbeobachtung
In Kürze: Ein neu prozessiertes hyperspektrales Datenprodukt der EnMAP Mission wird Nutzern für Erdbeobachtungsanwendungen im EOC Geoservice zur Verfügung gestellt. Damit verbunden ist auch der Datensatz SpectralEarth, welcher für die Entwicklung von KI-Modellen nützlich ist, siehe https://doi.org/10.48550/arXiv.2408.08447.
Das EOC stellt EnMAP-Nutzern zwei neue Datensätze zur Verfügung. Diese Produkte erschließen entscheidend das Potenzial der EnMAP-Mission für Anwendungen im Bereich maschinellen Lernens. Die Datensätze ermöglichen außerdem Verarbeitungsverfahren, die große Datenmengen benötigen, wie z.B. die Analyse von langen Zeitreihen oder die Kombination mit anderen Sensoren der Erdbeobachtung. Innerhalb des EnMAP Bodensegments wurde systematisch aus jeder EnMAP Aufnahme ein Level-2A Analysis Ready Data (ARD) Produkt erzeugt. Dabei wurde die Atmosphärenkorrektur für Landoberflächen angewendet. Basierend auf diesem Datensatz wiederum wurde „SpectralEarth“ erstellt – ein 3,3 Terabyte-großer Datensatz mit über einer halben Million hyperspektraler Bildausschnitte der Kachelgröße 128x128 Pixel und 202 Kanälen. SpectralEarth stellt eine wertvolle Grundlage zum Trainieren von sogenannten hyperspektralen Foundation-Modellen dar. Diese KI-Methoden wenden selbstüberwachtes maschinelles Lernen an, das mit wenigen Annotationen auskommt und damit eine effiziente Alternative zum überwachten Lernen darstellt. Dazu beinhaltet SpectralEarth eine Reihe von Annotationen für verschiedene Arten von Landbedeckungsklassifizierungen. Auf beide Datensätze haben registrierte Nutzer über den EOC Geoservice per Download Zugriff.
EnMAP (Environmental Mapping and Analysis Program) ist eine deutsche hyperspektrale Satellitenmission mit 224 Spektralbändern, die die Oberfläche der Erde in globalem Maßstab mit einer Bodenauflösung von 30x30m aufnimmt. EnMAP liefert umfangreiche Informationen über den Zustand und die Entwicklung terrestrischer und aquatischer Ökosysteme und unterstützt damit die Wissenschaft, die Umweltüberwachung, das Landmanagement und die politische Entscheidungsfindung.
Die Schnittstelle des EnMAP-Bodensegments ermöglicht Nutzern das Bestellen, die Prozessierung sowie die Auslieferung von EnMAP-Daten in den Produktstufen L1B, L1C oder L2A. Die Standardbenutzeroberfläche für das Beauftragen neuer EnMAP-Aufnahmen ist das EnMAP Instrument Planning Portal, während das EOWEB GeoPortal die Bestellung archivierter Daten ermöglicht. Beide Optionen erlauben es den Benutzern, individuelle Prozessierungsparameter anzugeben. Viele Nutzer, insbesondere solche aus dem Bereich der künstlichen Intelligenz und des maschinellen Lernens, bevorzugen jedoch einen standardisierten Datensatz für Big-Data-Analysen und Zeitreihenmodellierung. Aus diesem Grund wurde eine standardisierte, konsistente, systematisch verarbeitete und Cloud-native L2A-Datenkollektion für die gesamte EnMAP-Mission prozessiert. Diese wird ständig mit neuen Aufnahmen aktualisiert und erweitert. Die jeweiligen Metadaten entsprechen dem CEOS Analysis Ready Data (CEOS-ARD)-Framework. Wir stellen den Benutzern zum Einstieg ein Jupyter-Notebook zur Verfügung, welches die einfache und effiziente Datensuche innerhalb der L2A-Kollektion sowie den unkomplizierten Zugriff auf die Daten über die Geoservice STAC API beschreibt.
Foundation-Modelle haben zu einen Paradigmenwechsel in der computergestützten Bildverarbeitung geführt. Sie werden nun auch zunehmend in der Fernerkundung eingesetzt, insbesondere für multispektrale Satellitenbilder. Ihr Potenzial in der hyperspektralen Bildgebung (HSI) erfordert jedoch umfassende und global repräsentative hyperspektrale Datensätze. Um diese Lücke zu schließen, bieten wir – gefördert durch das EU-Projekt EvoLand –den groß angelegten, multitemporalen Datensatz SpectralEarth an, der zum Vortrainieren hyperspektraler Foundation-Modelle entwickelt wurde. SpectralEarth umfasst über 538.000 nicht georeferenzierte Bildausschnitte, die 415.000 einzelne Standorte aus mehr als 11.000 global verteilten EnMAP L2A-Szenen abdecken. Diese Daten wurden über einen Zeitraum von ca. zwei Jahren vom EnMAP-Satelliten aufgezeichnet. Darüber hinaus enthalten 17% dieser global verteilten Standorte mehrere Zeitstempel, was eine multitemporale HSI-Analyse ermöglicht. SpectralEarth-Daten wurden bezüglich Wolkenbedeckung und atmosphärischer Artefakte gefiltert. Darüber hinaus wurden die EnMAP-Aufnahmen in Kacheln mit 128x128 räumlichen Pixeln aufgeteilt. Außerdem wurden drei sogenannte „Downstream Task“ Datensätze für die Kartierung von Landbedeckung und Feldfruchtarten erstellt, die Benchmarks für die Modellbewertung liefern. Daten für entsprechende Anwendungen wurden aus dem europäischen CORINE Land Cover Datensatz und den US-amerikanischen Landwirtschafts- und Landbedeckungsprodukten CDL und NLCD zusammengestellt. Der SpectralEarth-Datensatz kann über den EOC Geoservice heruntergeladen werden. Weitere Informationen zum Datensatz finden Sie hier.
Zusätzlich zum EOC Geoservice können auch Nutzer der EO-Lab Plattform auf die EnMAP L2A ARD Datenkollektion und den SpectralEarth Datensatz zugreifen. Dies wird über Identity Federation zwischen den beiden Plattformen ermöglicht. EO-Lab bietet neben einer einfachen Datensuche und Datenzugriffsoptionen auch Prozessierungsmöglichkeiten für KI-Nutzer an.