Wir stellen eine neuartige Technik vor, um automatisch kommentierte Daten für wichtige Aufgaben der Roboterwahrnehmung wie Objektsegmentierung und 3D-Objektrekonstruktion mit einem Robotermanipulator zu erzeugen. Unsere selbstüberwachte Methode kann unbekannte Objekte von einem Robotergreifer in RGB-Videosequenzen segmentieren, indem sie Bewegungs- und zeitliche Hinweise ausnutzt. Der Schlüsselaspekt unseres Ansatzes im Gegensatz zu bestehenden Systemen ist seine Unabhängigkeit von jeglichen Hardwarespezifika wie der extrinsischen und intrinsischen Kamerakalibrierung und einem Robotermodell. Wir erreichen dies durch einen zweistufigen Prozess: Zunächst lernen wir, die Segmentierungsmasken für unseren gegebenen Manipulator mithilfe der optischen Flussschätzung vorherzusagen. Dann werden diese Masken in Kombination mit Bewegungshinweisen verwendet, um automatisch zwischen dem Manipulator, dem Hintergrund und dem unbekannten, ergriffenen Objekt zu unterscheiden. Wir führen einen gründlichen Vergleich mit alternativen Basislösungen und Ansätzen aus der Literatur durch. Die gewonnenen Objektansichten und Masken sind geeignete Trainingsdaten für Segmentierungsnetzwerke, die sich auf neuartige Umgebungen verallgemeinern lassen und außerdem eine wasserdichte 3D-Objektrekonstruktion ermöglichen.
Das Papier ist verfügbar unter https://arxiv.org/abs/2002.04487