Datenmanagement und -aufbereitung

Im Fokus der Abteilung steht die Erforschung und Entwicklung von Methoden, Werkzeugen und Systemen im Bereich Datenmanagement und -aufbereitung. Schwerpunkte sind hierbei:

  • Informationsextraktion aus Dokumenten,
  • Entwicklung von Methoden zum automatisierten Austausch von heterogenen Daten zwischen unterschiedlichen Stakeholdern (Interoperabilität)
  • Nutzbarmachung von Daten außerhalb ihres ursprünglichen Erhebungskontextes mit Hilfe von semantischen Beschreibungen,
  • Methoden zur manuellen und (semi-)automatischen Weiterentwicklung semantischer Modelle (Knowledge Graph Evolution), sowie
  • Entwicklung von Methoden und Systemen zur effizienten Datenverwaltung, -visualisierung und -exploration von Raster-, Zeitreihen- und Punktwolkendaten in unterschiedlichen Ausführungsumgebungen und unter Ausnutzung moderner Hardware.

Die Anwendungsbereiche erstrecken sich dabei über alle Bereiche des DLR mit einem Fokus auf die Bereiche Kreislaufwirtschaft und resiliente Lieferketten, für die der Datenaustausch zwischen verschiedenen Stakeholdern eine wichtige Rolle spielt. Dies wird beispielsweise in den Projekten MaTiC-M, COOPERANTS, Aerospace-X verfolgt:

Das Projekt "Methods and Technologies for an intelligent Circularity of Materials" (MaTiC-M) fokussiert sich auf die Entwicklung nachhaltiger Produktdesigns sowie Demontagetechnologien; wir tragen durch Modellierung und Toolentwicklung dazu bei, um im Design eine möglichst recyclingfreundliche Produktentwicklung zu unterstützen.

"Collaborative Processes and Services for Aeronautics and Space" (COOPERANTS) ist im Bereich Datenaustausch in der Luft- und Raumfahrt angesiedelt und beschäftigt sich insbesondere mit kollaborativen Designprozessen und Datenaustausch entlang von Zuliefererketten. Dabei unterstützen wir mit Forschung im Bereich semantischer Interoperabilität.

Ähnlich gelagert ist das Projekt Aerospace-X; hier liegt der Fokus allerdings in der Fertigung und Qualitätssicherung. Hier liegen unsere Arbeiten im Bereich semantische Interoperabilität.

Die Abteilung besteht aus drei Arbeitsgruppen:

Datenzugriff und -verarbeitung

Moderne Datenverwaltungssysteme müssen heutzutage vielfältige Herausforderungen meistern. Daten sind deutlich heterogener (z.B. Raster-, Zeitreihen- und Punktwolkendaten) und werden in unterschiedlichsten Mengen und Geschwindigkeiten erzeugt, Datenzugriffsmuster werden zunehmend interaktiver und vielgestaltiger (z.B. durch die Zunahme des Einsatzes von mobilen Endgeräten, der interaktiven Datenexploration oder der Zugriff auf Daten aus virtuellen Forschungsumgebungen heraus), und Datenverwaltungssysteme müssen in unterschiedlichsten Ausführungsumgebungen lauffähig sein (z.B. Edge, Cloud, Embedded). Für diese vielfältigen Anforderungen sind heutige Datenverwaltungssysteme in der Gänze nicht ausgelegt.

Ausgehend von diesen Anforderungen sollen in der Forschungsgruppe Methoden und Technologien entwickelt werden, die es ermöglichen Daten unterschiedlichster Art in einem Datenverwaltungssystem zu speichern und dabei gleichzeitig effizient heterogene Datenzugriffsmethoden zur Verfügung zu stellen. Hierbei spielen insbesondere die Aspekte Performance, Skalierbarkeit (bezogen auf Datenmenge und verfügbare Hardwareressourcen) und Ressourceneffizienz eine essentielle Rolle. Insbesondere sollen bei der Forschung auch Trends, wie beispielsweise die Diversifizierung von Rechen- und Speicherhardware (z.B. NVMe SSDs, persistenter Speicher, Computational Storage) sowie unterschiedlichen Nutzungsszenarien, in der Gesamtarchitektur der Systeme berücksichtigt werden. Zusammenfassend verfolgt die Arbeitsgruppe folgende Forschungsschwerpunkte:

  • Database & Information System Architecture
  • Efficient Data Management
  • Data Storage Technologies
  • Big Data Processing & Visualization

Metadaten-Management

Daten werden immer mehr zur treibenden Kraft in vielen Bereichen von Wissenschaft und Industrie. Die wachsende Zahl an Beteiligten lässt die Datenlandschaft immer vielfältiger, umfangreicher und interessanter werden. Diese zunehmende Heterogenität führt allerdings auch zu neuen Herausforderungen:
Beschreibungen können nicht mehr nur auf ein Projekt oder eine Anwendung abzielen, sondern müssen einem allgemeinen Publikum gerecht werden; passende Datensätze müssen zielsicher aus einer immer schneller wachsenden Zahl an Quellen identifiziert werden; die Bedeutung(en) bestimmter Terme und Konzepte unterscheiden sich oft zwischen Beteiligten und müssen übersetzt werden.

Das Semantic Web verspricht zwar Lösungen zu diesen und weiteren Herausforderungen, in der Praxis konnten sich entsprechende Ansätze aber noch nicht durchsetzen und das volle Potential einer Daten-getriebenen Wissenschaft und Wirtschaft ist noch längst nicht erschlossen.

Das Ziel der Gruppe besteht darin Daten über ihren ursprünglichen Kontext hinaus auch über die Grenzen von Projekten, Institutionen oder Fachbereichen verfügbar zu machen. Dabei werden u.a. folgende Themenbereiche betrachtet:

  • Metadaten und Beschreibungen
  • Semantic Web & Wissensgraphen
  • Datenmanagement in Wissenschaft und Industrie
  • Semantisch angereicherte Werkzeuge und Services

Informationsextraktion und Interoperabilität

Informations- und Datenaustausch ist essentiell für Kommunikation in verschiedensten Bereichen; beispielsweise zwischen Firmen bezüglich Produktionsdaten oder zwischen Forschungseinrichtungen bezüglich Mess- und Erhebungsdaten.

Dieser Austausch wird dadurch erschwert, dass Informationen und Daten in zueinander inkompatiblen und teilweise nicht einmal in maschinenlesbaren Formaten vorliegen. Häufig sind diese zum Beispiel in - aus Computer-Sicht - unstrukturierten oder semi-strukturierten Dokumenten abgelegt.

Um Informationsaustausch zu vereinfachen und unstrukturierte Daten darüber hinaus für eine weitere automatisierte Verarbeitung zugänglich zu machen, verfolgt die Arbeitsgruppe daher zwei Hauptforschungsbereiche:

  • Informationsextraktion
    • Aus semi-strukturierte Daten, z.B. Tabellen
    • Fokus auf technische Dokumente wie Datenblätter oder Messprotokolle
  • Interoperabilität, vor allem auf semantischer Ebene
    • (Semi-)automatische Erweiterung von Wissensgraphen
    • Fokus auf Zuliefererketten, Recyclingrouten, Produktlebenszyklus

Projekte der Abteilung Datenmanagement und -aufbereitung

laden

Kontakt

Dr. Sirko Schindler

komm. Abteilungsleiter
Institut für Datenwissenschaften
Datenmanagement und -aufbereitung
Mälzerstraße 5, 07745 Jena

Diana Peters

komm. Abteilungsleiterin
Institut für Datenwissenschaften
Datenmanagement und -aufbereitung
Mälzerstraße 5, 07745 Jena