Dies ist die IROS2021 Präsentation unserer jüngsten Arbeit "Unknown Object Segmentation from Stereo Images" von M. Durner, W. Boerdijk, M. Sundermeyer, W. Friedl, Z.-C. Marton, und R. Triebel
Zusammenfassung:
Obwohl die instanzbewusste Wahrnehmung eine wichtige Voraussetzung für viele autonome Roboteranwendungen ist, lösen die meisten Methoden das Problem nur teilweise, indem sie sich ausschließlich auf bekannte Objektkategorien konzentrieren. Für Roboter, die in dynamischen und unübersichtlichen Umgebungen interagieren, ist dies jedoch nicht realistisch und schränkt die Bandbreite der möglichen Anwendungen stark ein. Daher schlagen wir einen neuartigen Ansatz zur Segmentierung von Objektinstanzen vor, der keinerlei semantische oder geometrische Informationen über die Objekte voraussetzt. Im Gegensatz zu bestehenden Arbeiten verwenden wir nicht explizit Tiefendaten als Eingabe, sondern stützen uns auf die Erkenntnis, dass leichte Änderungen des Blickwinkels, die z.B. von Stereobildpaaren geliefert werden, oft ausreichen, um Objektgrenzen zu bestimmen und damit Objekte zu segmentieren. Wir konzentrieren uns auf die Vielseitigkeit von Stereosensoren und verwenden eine auf Transformern basierende Architektur, die die Objektinstanzen direkt auf das Eingabebildpaar abbildet. Dies hat den großen Vorteil, dass wir anstelle einer verrauschten und potenziell unvollständigen Tiefenkarte als Eingabe, auf der die Segmentierung berechnet wird, das ursprüngliche Bildpaar verwenden, um die Objektinstanzen und eine dichte Tiefenkarte abzuleiten. In Experimenten in verschiedenen Anwendungsbereichen haben wir gezeigt, dass unser Instance Stereo Transformer (INSTR) Algorithmus den aktuellen State-of-the-Art Methoden, die auf Tiefenkarten basieren, überlegen ist. Der Trainingscode und die trainierten Modelle sind unter https://github.com/DLR-RM/instr verfügbar.