Technologische Neuigkeiten, Bewertungen und Tipps!

Eine neue KI-Forschung schlägt VoxFormer vor: ein transformatorbasiertes 3D-Framework zur semantischen Szenenvervollständigung

Hinweis: Der folgende Artikel hilft Ihnen dabei: Eine neue KI-Forschung schlägt VoxFormer vor: ein transformatorbasiertes 3D-Framework zur semantischen Szenenvervollständigung

Das Verständnis eines ganzheitlichen 3D-Bildes ist für autonome Fahrzeuge (AV) eine große Herausforderung. Es hat direkten Einfluss auf spätere Aktivitäten wie Planung und Kartenerstellung. Die fehlende Sensorauflösung und die teilweise Beobachtung aufgrund des kleinen Sichtfelds und der Verdeckungen machen es schwierig, präzise und umfassende 3D-Informationen über die tatsächliche Umgebung zu erhalten. Zur Lösung der Probleme wurde die Semantic Scene Completion (SSC) angeboten, eine Methode zur gemeinsamen Ableitung der gesamten Szenengeometrie und -semantik aus spärlichen Beobachtungen. Szenenrekonstruktion für sichtbare Bereiche und Szenenhalluzination für verdeckte Abschnitte sind zwei Teilaufgaben, die eine SSC-Lösung gleichzeitig bewältigen muss. Menschen denken leicht über Szenengeometrie und -semantik auf der Grundlage unvollkommener Beobachtungen nach, was dieses Unterfangen unterstützt.

Dennoch bleiben moderne SSC-Techniken hinsichtlich der Leistung in Fahrszenarien immer noch hinter der menschlichen Wahrnehmung zurück. LiDAR wird von den meisten aktuellen SSC-Systemen als Hauptmodalität zur Bereitstellung präziser geometrischer 3D-Messungen angesehen. Zwar sind Kameras erschwinglicher und bieten bessere visuelle Hinweise auf die Fahrumgebung, LiDAR-Sensoren sind jedoch teurer und weniger tragbar. Dies inspirierte die Untersuchung kamerabasierter SSC-Lösungen, die ursprünglich in der bahnbrechenden Arbeit von MonoScene vorgestellt wurden. MonoScene verwendet eine dichte Feature-Projektion, um 2D-Bildeingaben in 3D umzuwandeln. Eine solche Projektion verleiht leeren oder verdeckten Voxeln jedoch 2D-Eigenschaften aus den sichtbaren Bereichen. Ein leeres Voxel, das beispielsweise von einem Auto verdeckt wird, erhält dennoch die visuellen Eigenschaften des Automobils.

Infolgedessen weisen die erstellten 3D-Features eine schlechte Leistung hinsichtlich geometrischer Vollständigkeit und semantischer Segmentierung – ihrer Beteiligung – auf. VoxFormer betrachtet im Gegensatz zu MonoScene die 3D-zu-2D-Queraufmerksamkeit als Darstellung spärlicher Abfragen. Der vorgeschlagene Entwurf basiert auf zwei Erkenntnissen: (1) Sparsity im 3D-Raum: Da ein erheblicher Teil des 3D-Raums typischerweise leer ist, ist eine spärliche Darstellung gegenüber einer dichten Darstellung zweifellos effektiver und skalierbarer. (2) Rekonstruktion vor der Halluzination: Die 3D-Informationen des nicht sichtbaren Bereichs können mithilfe der rekonstruierten sichtbaren Bereiche als Ausgangspunkt besser vervollständigt werden.

Kurz gesagt, sie leisteten die folgenden Beiträge zu diesen Bemühungen:

• Ein hochmodernes zweistufiges System, das Fotos in eine vollständige voxelisierte semantische 3D-Szene umwandelt.

• Ein innovatives, auf 2D-Faltung basierendes Abfragevorschlagsnetzwerk, das vertrauenswürdige Abfragen aus der Bildtiefe generiert.

• Ein einzigartiger Transformer, der eine vollständige 3D-Szenendarstellung erzeugt und dem maskierten Autoencoder (MAE) ähnelt.

• Wie in Abb. 1(b) zu sehen ist, entwickelt VoxFormer das hochmoderne kamerabasierte SSC weiter.

VoxFormer umfasst zwei Stufen: Stufe 1 schlägt einen spärlichen Satz besetzter Voxel vor und Stufe 2 vervollständigt die Szenendarstellungen beginnend mit den Empfehlungen von Stufe 1. Stufe 1 ist klassenunabhängig, während Stufe 2 klassenspezifisch ist. Wie in Abb. 1(a) dargestellt, basiert Stufe 2 auf einem einzigartigen, spärlich bis dicht besiedelten MAE-ähnlichen Design. Insbesondere enthält Stufe 1 ein leichtes 2D-CNN-basiertes Abfragevorschlagsnetzwerk, das die Szenengeometrie mithilfe der Bildtiefe rekonstruiert. Dann schlägt es im gesamten Sichtfeld eine spärliche Sammlung von Voxeln vor, indem voreingestellte lernbare Voxelabfragen verwendet werden.

Sie verstärken zunächst ihre Featurisierung, indem sie es den vorgeschlagenen Voxeln ermöglichen, auf die Bildbeobachtungen zu achten. Die verbleibenden Voxel werden dann durch Selbstaufmerksamkeit verarbeitet, um die Szenendarstellungen für die semantische Segmentierung pro Voxel fertigzustellen, nachdem die nicht vorgeschlagenen Voxel mit einem lernbaren Masken-Token verbunden wurden. VoxFormer bietet modernste geometrische Vervollständigung und semantische Segmentierungsleistung, wie aus umfangreichen Experimenten mit dem umfangreichen SemanticKITTI-Datensatz hervorgeht. Noch wichtiger ist, wie in Abb. 1 gezeigt, dass die Vorteile an sicherheitskritischen Standorten im Nahbereich groß sind.

Table of Contents