Image Mining

Im Erdbeobachtungszentrum (EOC) des DLR werden Petabytes von Satellitenbilddaten verarbeitet, abgespeichert und verwaltet.  Dies bietet neue Chancen und Herausforderungen, beispielsweise wie man diese großen Datenmengen auswerten kann.

Einige Beispiele für diese Interaktionen
Interaktionen zwischen verschiedenen Bestandteilen von IIM-Systemen sowie einige Beispiele für diese Interaktionen.

Das veranlasste uns, nach Information-Mining-Systemen für Bilddaten (Image Information Mining Systems = IIMs) Ausschau zu halten, die in der Lage sind, die benötigten Informationen zu extrahieren und diese in einer für menschliche Nutzer verständlichen Weise darzustellen. Ein IIM-System umfasst Rechner (deren Abläufe auf Verfahren zum maschinellen Lernen beruhen) sowie Nutzer und alle Interaktionen, die zwischen den Nutzern und den Rechnern, den verschiedenen Rechnern und den verschiedenen Nutzern ablaufen. Trotz großer Fortschritte sind die Ergebnisse der meisten verfügbaren IIM-Systeme für die Nutzer noch unbefriedigend. Wenn Nutzer zum Beispiel nach einem bestimmten inhaltlichen Begriff (wie etwa “Gebäude”) suchen, können sie sehr unterschiedliche Ergebnisse erhalten, die nicht immer mit ihrer gedanklichen Vorstellung des Begriffs übereinstimmen müssen. Dies kann auf die gedanklichen Vorstellungen anderer Nutzer zurückzuführen sein, mit denen ein Rechner trainiert wurde.

Diese Unzulänglichkeit beruht auf der "Sensory gap" und "Semantic gap" (Sensor- so-wie der Semantik-Lücke). Die "Sensory gap" bezieht sich auf den Unterschied zwischen der Wahrnehmung eines Objekts mit dem bloßen Auge und der Wahrnehmung des Objekts aufgrund von Bildern, die aus aufgezeichneten Sensorsignalen entstanden sind. Die "Semantic gap" ist definiert als der Unterschied zwischen dem Verstehen von Objekten in einem Bild durch Nutzer und Rechner, beziehungsweise den Unterschieden im Bildverstehen zwischen verschiedenen Nutzern.

Überblick über die Sensory gap und Semantic gap
mit einer Animation, die zeigt, wie verschiedene Eigenschaften eines Bilds (wie seine Größe oder sein Gesichtsfeld) die Sensory gap beeinflussen. Mit dem ersten sehr kleinen Bild (siehe Bild unten) ist es sehr schwierig, das enthaltene Objekt zu identifizieren. Mit wachsender Bildgröße und zusätzlichen Kontextinformationen kann man das Objekt aus dem ersten Bild leichter erkennen. Es handelt sich um einen See.

Die meisten bisherigen Publikationen verfolgen einen rechnerischen Ansatz, um die semantische Lücke zu behandeln, indem sie verschiedene Gesichtspunkte von Rechnern ansprechen, wie etwa die verwendeten Lern-Algorithmen. Dabei werden jedoch die Nutzer und ihre System-Interaktionen nicht betrachtet.

Wir behandeln das Problem der Nutzer-Unzufriedenheit mit einem interdisziplinären Ansatz, indem wir Ergebnisse und Methoden aus den Gebieten des maschinellen Sehens und der kognitiven Psychologie verbinden. Bei unseren Forschungsarbeiten führen wir Benutzer-Experimente durch, um die "Sensory gap" und "Semantic gap" zu messen und Wege zu finden, diese zu verringern.

Eine Momentaufnahme eines unserer Experimente

Links