DLR und Mozilla erforschen Technologie zur Sprachsteuerung von Robotern
- Schwerpunkte: Raumfahrt, Digitalisierung, Künstliche Intelligenz, Robotik
Bei der Steuerung von Satelliten oder dem Betrieb des Columbus-Labors auf der Internationalen Raumstation ISS dürfen keine Fehler passieren. Jeder Arbeitsschritt und jeder Befehl folgt einer festgelegten Prozedur und wird dokumentiert. Um den Sprechfunk des Kontrollraums automatisiert in Textprotokolle zu überführen und Schlüsselinhalte gleichzeitig zu verlinken, entwickelt das Deutsche Raumfahrtkontrollzentrum (GSOC) des DLR „openvocs“ – eine Software zur Sprachübertragung. Die Technologie könnte künftig auch Astronauten zur Kommandierung von Mondrovern oder anderen Robotersystemen dienen. Dazu untersucht das Deutsche Zentrum für Luft- und Raumfahrt (DLR) in Zusammenarbeit mit der Mozilla Corporation, ob die offene Spracherkennungsplattform „DeepSpeech“ für eine sprachbasierte Robotersteuerung verwendet werden kann. Ziel ist es, eine offene Softwarelösung zu entwickeln, die zur freien Nutzung auf Smartphones und anderen gängigen Eingabegeräten geeignet ist. Ein erster Prototyp soll bis zum Herbst erarbeitet werden.
Die Sprachübertragung in openvocs basiert auf der Web-Echtzeitkommunikation WebRTC und stellt die Verbindungen zwischen Spracheingabegerät und Roboter her. Dieser offene Übertragungsstandard wird von allen großen Browsern unterstützt, sodass eine Vielzahl von Endgeräten als Sprachterminal genutzt werden können. So ist die Basistechnologie WebRTC auch bei Datentransfers von Videokonferenzen, Chats oder Desktop-Sharing üblich.
Die DLR-Wissenschaftler verfolgen den Ansatz, zuerst die Spracheingabe mittels der DeepSpeech-Plattform in Text umzuwandeln. Die künstliche Intelligenz von openvocs soll diesen Text dann analysieren und festgelegte Kommandos erkennen. Für das Testszenario nutzen die Entwickler eine Roversteuerung mit einfachen Befehlssätzen wie „nach links“, „nach rechts“, „vorwärts“ oder „rückwärts“. Im letzten Schritt aktiviert die Texterkennung die entsprechende Motorsteuerung des Roboters – der Sprachbefehl wird ausgeführt.
Die Sprachkommandos können individuell programmiert werden. Dazu nutzen die Experten des GSOC maschinelles Lernen und testen, wie gut das neue Sprachmodell die gelernten Befehle erkennt. Hier gilt es unter anderem Mehrfachbedeutungen von Worten und andere semantische Überlagerungen, sowie Verneinungen korrekt zuzuordnen. So muss die Software beispielsweise lernen, dass der Ausdruck „niemanden zurücklassen“ kein Bewegungsbefehl ist, und dass die Kommandos „zurück“ und „rückwärts“ dieselbe Wortbedeutung haben.
Darüber hinaus arbeiten die Experten aus Berlin und Oberpfaffenhofen an einer möglichst intuitiven Bedienung. Um die Sprachsteuerung zu aktivieren soll kein Triggerbefehl notwendig sein. Stattdessen sollen die vordefinierten Kommandos automatisch im Sprachstrom erkannt werden. Ferner benötigt Mozillas DeepSpeech-Plattform keine Cloud-Lösung zur Datenverarbeitung und lässt sich als Software herunterladen und individuell trainieren. Nutzer können das “speech-to-text“-Model direkt auf den Roboter laden und verfügen damit über eine lokale Spracherkennung. Dank der Opensource Lizenz von „DeepSpeech“ ist künftig auch die freie Nutzung der DLR-Technologieentwicklung möglich.
"Wir haben das openvocs-Projekt im DLR mit dem Ziel zur Bereitstellung einer offenen und flexiblen Plattform für Kontrollraumkommunikation gestartet. Die Spracherkennungslösung von Mozilla fügt sich hier nahtlos ein. Ich freue mich sehr über die Kombination beider Arbeiten, da dies ganz neue und spannende Möglichkeiten für die Kommunikation im Raumfahrtbereich bietet", sagt openvocs-Systemingenieur Markus Töpfer vom DLR-Raumflugbetrieb und Astronautentraining.
Kelly Davis, Manager Machine Learning Group von Mozilla, ergänzt: „Das Interesse des DLR an unserer STT-Technologie bestätigt insbesondere unsere Arbeit an Leistungsoptimierungen für Embedded-Systeme und kleine Geräteplattformen. Auch wenn wir noch in der Testphase sind: Ehrlicherweise ist das Kind in mir auch begeistert von der Idee vielleicht eines Tages in den Himmel schauen zu können und zu wissen, dass wir eine kleine Rolle bei dem gespielt haben, was sich so viele Kilometer über uns abspielt."
In den kommenden Monaten baut das Deutsche Raumfahrtkontrollzentrum die Schnittstelle „Sprache-zu-Text“ für die neue Kommunikationslösung auf und bindet diese in die openvocs-Plattform des DLR ein. Gemeinsam mit Mozilla erforscht das Entwicklerteam gezielt die Grundlagentechnologien, sodass Astronauten und Nutzer auf der Erde ihre Hände in Zukunft frei bewegen können, wenn sie einen Roboter steuern.