Der ''Real-Synthetic-Rock-Instance-Segmentation-Datensatz'' (ReSyRIS) ermöglicht Training und Evaluierung von Gesteinssegmentierung, -erkennung und Instanz-Segmentierung in (quasi-)extraterrestrischen Umgebungen. Er besteht aus annotierten, realen Bildern von Steinen auf mondähnlichen Oberflächen, einer präzise nachgebildeten synthetischen Version davon und entsprechenden synthetischen Assets zur Trainingsdatengenerierung.
Details
Der Real-Synthetic Rock Instance Segmentation Datensatz (ReSyRIS) ermöglicht Training und Evaluierung von Methoden zur Detektion, semantischen Segmentierung und Instanz-Segmentierung von Steinen in (quasi-) extra-terrestrischen Umgebungen. Er besteht aus einem Set aus realen Bildern von Steinen auf Mond-ähnlicher Oberfläche, und einer präzise imitierten synthetischen Variante. Beide Versionen beinhalten pixel-weise annotierte Steinmasken. Die Assets zum Erstellen des synthetischen Testsets (3D Steinmodelle und Bodentextur) ermöglichen die Generierung von Trainingsdaten in unterschiedlichsten Spezifikationen.
Download
Das Datenset kann über Zenodo heruntergeladen werden:
https://zenodo.org/record/7691201
Reales Testset
Das reale Testset wurde im Zuge der ARCHES Demo-Mission im Tal zwischen Cratere del Laghetto und La Cisternazza auf dem Etna in Sizilien, Italien, aufgenommen. Die dortige Umgebung spiegelt die generelle Beschaffenheit der Moldoberfläche sehr gut wieder. Das Testset besteht aus einer Sammlung von insgesamt 36 Steinen aus dortiger Umgebung, die in kleinen Ansammlungen (sechs bis neun Steine pro Szene) in enger und verteilter Konfiguration zufällig am Boden plaziert wurden. Pro Konfiguration wurden etwa 20 Bilder aus verschiedenen Blickwinkeln aufgenommen. Dieser Prozess wurde zwölf Mal wiederholt, um insgesamt 222 Bilder zu erhalten.
Die Szenen wurden mit einem rc_visard 65 und zwei Manta G-201 Graustufen-Kamera mit 8mm F1.8 Objektiv aufgenommen. Daten zur intrinsischen und extrinsischen Kalibrierung der Kameras wurde vor Ort aufgenommen. Jedes linke RGB-Bild des rc_visards wurde manuell annotiert, um pixel-weise Masken für jeden Stein zu erhalten.
Synthetisches Testset
Um eine genaue Kopie der realen Daten zu erstellen, sind texturierte 3D Modelle der Steine und die Bodentextur vonnöten.
Die 3D Steinrekonstruktion wird mittels Photogrammetrie in Meshroom durchgeführt. Mit einer Sony ILCE-7M4 mit einem 35mm F1.8 Objektiv werden dafür Bilder von jedem Objekt auf einem weißen Tisch unter guter Beleuchtung aufgenommen. Der Stein wird dabei langsam um seine eigene Achse gedreht, und die Kamera nach jeder vollen Rotation mehrmals höhenverstellt, um möglichst verschiedene Blickwinkel aufzunehmen. Insgesamt werden so etwa 200 Bilder pro Stein aufgenommen. Alle Bilder werden zuerst in Darktable prozessiert, um Belichtung und Weißabgleich an eine Weißabgleich- bzw. Graukarte anzupassen. Jedes Bild wird dann entsprechend zugeschnitten, sodass der Stein im Mittelpunkt ist, und allen Hintergrundpixeln wird ein einheitlicher (weißer) Farbwert zugewiesen. Das verbessert den Matching-Prozess in Meshroom, da sich die Feature-Extraktion primär auf den Vordergrund konzentrieren soll. Schlussendlich werden die Bilder in die photogrammetrische Pipeline in Meshroom gegeben, um ein texturiertes 3D Modell zu erhalten.
Für die Bodentextur wird dieselbe Sony Kamera verwendet, um auf dem Ätna eine etwa 25m2 große Fläche in kleinen Abschnitten von oben (ca. 50cm Höhe) aufzunehmen. Bei genügend Überlappung zwischen den Bildern kann dieselbe Photogrammetrie-Pipeline verwendet werden, mit einem Unterschied: Um das Matching weiter zu verbessern, wird in Darktable ein zweites Set von Bildern erzeugt, wo Kontrast und Schärfe übernatürlich verbessert werden. Das erste Bilderset wird somit nur im letzten Schritt zur Texturierung verwendet.
Damit neben der RGB-Textur auch die geometrische Struktur des Bodens erfasst werden kann, werden Displacement- und Normalen-Karten in Blender extrahiert. Dies geschieht mittels sogenannten Decimate- und Shrinkwrap-Modifiern: Hier wird die hochauflösende Mesh zuerst zu einer beinahe flachen Oberfläche reduziert, um anschließend iterativ zerteilt zu werden mit der Bedingung, der originalen Mesh möglichst ähnlich zu sein. Diese iterative Verzerrung der Oberfläche kann dann in einer Displacement- und Normalen-Karte festgehalten werden.
Um die originalen Kameraposen und eine initiale Position der Steine für das synthetische Testset zu erhalten, wird die photogrammetrische Pipeline auch auf den realen Testszenen angewandt. Die resultierenden Meshes besitzen eine vergleichsweise niedrige Auflösung, aber ermöglichen es, um die gescannten Steine an die ungefähre Position in der jeweiligen Szene anzugleichen. Nun wird in OAISYS eine flache Oberfläche generiert, auf die das zuvor erstellte Bodenmaterial angewandt wird. Dann werden für jede Szene die jeweiligen Steine an den zuvor ermittelten Positionen plaziert. Schlussendlich wird die Szene aus den ermittelten Kamerapositionen gerendert.
Synthetische Trainingsdaten
Die zuvor erstellten Assets (3D Steine und Bodentextur) eignen sich nicht nur zu synthetischen Rekreation des realen Testsets, sondern auch, um synthetische Trainingsdaten in beinahe endloser Varietät zu erzeugen. Das Datenset enthält beispielhafte Konfigurationsdateien, um solche Daten in OAISYS zu generieren.
Publikationen
Wout Boerdijk, Marcus Gerhard Müller, Maximilian Durner, und Rudolph Triebel, "ReSyRIS: A Real-Synthetic Rock Instance Segmentation Dataset for Training and Benchmarking", in: Proc. of 2023 IEEE Aerospace Conference, AERO 2023. IEEE. 2023 IEEE Aerospace Conference, Big Sky, USA, March 2023, Big Sky, USA, [elib]
Marcus Gerhard Müller, Maximilian Durner, Abel Gawel, Wolfgang Stürzl, Rudolph Triebel, und Roland Siegwart, "A Photorealistic Terrain Simulation Pipeline for Unstructured Outdoor Environments", in: Proc. of 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems, Prague, 27 Sep - 1 Oct 2021 [elib]
Der bei der Aufnahme der realen Daten verwendete Kamerastack, bestehend aus einem rc_visard 65 (unten) und zwei Manta Kameras (oben).
Quelle: DLR (CC BY-NC-ND 3.0).
Galerie teilen:
Ein Beispiel einer engen Konfiguration der Testdaten, Oben: linkes und rechtes Bild vom rc_visard; unten: linkes und rechtes Bild der Manta Kameras. Jedes linke Bild des rc_visards ist manuell annotiert worden.
Der Prozess der hochauflösenden 3D Rekonstruktion. Oben links: beispielhafter Zuschnitt eines maskierten Steines; oben rechts: rekonstruierte Kameras in Meshroom; unten: gerenderte texturierte Mesh in Blender mit Zoom.
Eine Darstellung von allen 36 rekonstruierten Steinen in zufälliger Größe.
ReSyRIS besteht aus einer Sammlung von realen Bildern von Steinen in Mond-ähnlicher Umgebung (links), und eine imitierte synthetische Version (rechts) mit jeweiligen Instanz-Annotationen (farbige Masken und grüne Boxen).