Video: Formvervollständigung und Greifvorhersage für schnelles und vielseitiges Greifen mit einer mehrfingrigen Hand

Video: Formvervollständigung und Greifvorhersage für schnelles und vielseitiges Greifen mit einer mehrfingrigen Hand
Das Greifen von Objekten, über die man nur wenig oder gar nichts weiß, ist eine äußerst wichtige Fähigkeit in der Hilfsrobotertechnik. Dennoch ist es in diesem allgemeinen Umfeld ein offenes Problem geblieben. Die Vielfalt der Objektformen bei nur teilweiser Sichtbarkeit stellt eine große Herausforderung dar. Um diese Herausforderungen zu meistern, stellen wir eine Deep Learning-Pipeline vor, die aus einem Modul zur Formvervollständigung besteht, das auf einem einzigen Tiefenbild basiert, gefolgt von einem Greifvorhersagemodul, das auf der vorhergesagten Objektform basiert. Das Netzwerk zur Formvervollständigung basiert auf VQDIF und prognostiziert räumliche Belegungswerte an beliebigen Abfragepunkten. Als Griffvorhersage verwenden wir unsere zweistufige Architektur, die zunächst die Handposen mit Hilfe eines autoregressiven Modells erzeugt und dann die Fingergelenkkonfigurationen pro Pose regressiert. Um diesen Ansatz in die reale Welt zu übertragen, führen wir angepasste Verfahren für die Generierung von Trainingsdaten und das Training selbst ein. Als kritische Faktoren erweisen sich ein ausreichender Realismus der Daten und deren Erweiterung sowie eine besondere Aufmerksamkeit für schwierige Fälle während des Trainings. Darüber hinaus zeigen wir, wie man die Greifvorhersagen robuster gegenüber Unsicherheiten in der relativen Position zwischen Hand und Objekt machen kann und schlagen einen neuen Weg vor, um Mehrdeutigkeiten im Trainingsdatensatz für das Greifen zu behandeln, indem die Netzwerkarchitektur angepasst wird. Experimente auf einer physischen Roboterplattform zeigen das erfolgreiche Greifen einer Vielzahl von Haushaltsgegenständen auf der Grundlage eines Tiefenbildes aus einem einzigen Blickwinkel.
Länge: 00:02:54