Schätzer-gekoppeltes Verstärkungslernen für robuste rein taktile Manipulationen mit der Hand
Schätzer-gekoppeltes Verstärkungslernen für robuste rein taktile Manipulationen mit der Hand
In diesem Artikel werden die Fehler identifiziert, die bei der naiven Kombination von lernbasierten Controllern und Zustandsschätzern für die robotergestützte Manipulation mit der Hand auftreten. Konkret befassen wir uns mit der herausfordernden Aufgabe der rein taktilen, zielgerichteten Neuausrichtung der Hand mit nach unten gerichteter Hand. Dabei stellen wir fest, dass viele Kontrollstrategien, die in der Simulation realisierbar sind, aufgrund der begrenzten Sensorik keine genaue Zustandsabschätzung ermöglichen. Daher führt das getrennte Training des Controllers und des Schätzers und die Kombination der beiden zur Testzeit zu einer schlechten Leistung. Die von uns vorgeschlagene Lösung für dieses Problem besteht darin, eine Kontrollstrategie durch Verstärkungslernen in Verbindung mit dem Zustandsschätzer in der Simulation zu trainieren. Wir zeigen, dass dieser Ansatz zu einer robusteren Zustandsschätzung und einer insgesamt höheren Leistung bei der Aufgabe führt und gleichzeitig einen Vorteil bei der Interpretierbarkeit gegenüber vollständig durchgängigen Lernansätzen bietet. Dank unseres vereinheitlichten Lernschemas und einer End-to-End-GPU-Implementierung dauert das Lernen auf einem einzelnen Grafikprozessor nur 5 bis 8 Stunden. In Simulationsexperimenten mit der DLR-Hand II und für vier deutlich unterschiedliche Objektformen bieten wir eine eingehende Analyse der Leistung unseres Ansatzes. Schließlich zeigen wir die erfolgreiche sim2real-Übertragung mit Rotation der Objekte in alle 24 möglichen π/2-Orientierungen.
Credit: DLR (CC BY-NC-ND 3.0)
Länge: 00:02:30