Justin lernt mit Deep Reinforcement Learning allein durch Vorgaben dazu, was richtig oder falsch ist. In diesem Training lauteten die Vorgaben zum Beispiel „Das Objekt in Richtung Zielvorgabe drehen ist gut” und „Das Objekt fallen lassen ist schlecht“. Das maschinelle Lernen dauert in einer Simulation nur wenige Stunden, Justin wird dabei immer besser. Die Bewegungsstrategie für die Finger entwickelt er durch Ausprobieren selbst.