Technologische Neuigkeiten, Bewertungen und Tipps!

Lernen Sie OnePose++ kennen: Ein neuartiges KI-Keypoint-freies One-Shot-Framework zur Objektpositionsschätzung ohne CAD-Modelle

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie OnePose++ kennen: Ein neuartiges KI-Keypoint-freies One-Shot-Framework zur Objektpositionsschätzung ohne CAD-Modelle

Die jüngsten Entwicklungen im Bereich der künstlichen Intelligenz (KI) waren wirklich bemerkenswert: Die rasanten Fortschritte beim Deep Learning und anderen maschinellen Lerntechniken führten zu Durchbrüchen in einer Vielzahl von Anwendungen. Eine der genannten Anwendungen bezieht sich auf die Objektpositionsschätzung.

Die Posenschätzung von Objekten ist ein Bereich des maschinellen Sehens, der darauf abzielt, die Position und Ausrichtung von Objekten in einem Bild oder einer Videosequenz zu bestimmen. Es ist eine entscheidende Aufgabe für viele Anwendungen, wie zum Beispiel Augmented Reality, Robotik und autonomes Fahren. Die Objektpositionsschätzung kann mit einer Vielzahl von Techniken durchgeführt werden, einschließlich 2D-Schlüsselpunkterkennung und 3D-Rekonstruktion. Das ultimative Ziel der Objektpositionsschätzung besteht darin, eine umfassende Darstellung der Objekte in der Szene bereitzustellen, einschließlich ihrer Position und Ausrichtung, Form, Größe und Textur.

Die Schätzung der Objektposition ist für immersive Mensch-Objekt-Interaktionen in der Augmented Reality (AR) von entscheidender Bedeutung. Das AR-Szenario erfordert die Posenschätzung beliebiger Haushaltsgegenstände in unserem täglichen Leben. Die meisten vorhandenen Methoden basieren jedoch entweder auf hochpräzisen Objekt-CAD-Modellen oder erfordern das Training eines separaten Netzwerks für jede Objektkategorie. Die instanz- oder kategoriespezifische Natur dieser Methoden schränkt ihre Anwendbarkeit in realen Anwendungen ein.

Neue Techniken wurden untersucht, um diese Probleme und Einschränkungen zu überwinden.

OnePose zielt darauf ab, den Prozess der Objektpositionsschätzung für AR-Anwendungen zu vereinfachen, indem der Bedarf an CAD-Modellen und kategoriespezifischen Schulungen entfällt. Stattdessen ist lediglich eine Videosequenz mit annotierten Objektposen erforderlich. OnePose verwendet einen auf Feature-Matching basierenden Ansatz, der spärliche Objektpunktwolken rekonstruiert, 2D-3D-Korrespondenzen zwischen Schlüsselpunkten herstellt und die Objektpose schätzt. Allerdings hat diese Methode bei Objekten mit geringer Textur Schwierigkeiten, da die vollständigen Punktwolken mit der schlüsselpunktbasierten Struktur aus Bewegung (SfM) nur schwer zu rekonstruieren sind, was zu Fehlern bei der Posenschätzung führt.

Basierend auf den oben genannten Herausforderungen wurde OnePose++ entwickelt. Seine Architektur ist in der folgenden Abbildung dargestellt.

OnePose++ nutzt eine Keypoint-freie Feature-Matching-Pipeline zusätzlich zu OnePose, um Objekte mit geringer Textur zu verarbeiten. Zunächst wird aus Referenzfotos die korrekte halbdichte Objektpunktwolke rekonstruiert. Dann löst es die Objektposition für Testbilder, indem es 2D-3D-Korrespondenzen von grob nach fein herstellt.

Eine angepasste Version der LoFTR-Methode wird genutzt, um ein Feature-Matching zu erreichen. Es handelt sich um eine halbdichte Technik ohne Schlüsselpunkte, die sich hervorragend für den Abgleich von Bildpaaren und die Identifizierung von Korrespondenzen in Regionen mit geringer Textur eignet. Es verwendet die Mittelpunkte regelmäßiger Gitter im linken Bild als Schlüsselpunkte und findet durch einen Grob-zu-Fein-Prozess subpixelgenaue Übereinstimmungen im rechten Bild. Allerdings führt die Abhängigkeit von zwei Ansichten von LoFTR zu inkonsistenten Schlüsselpunkten und unvollständigen Feature-Tracks. Daher kann die schlüsselpunktfreie Feature-Matching-Methode nicht direkt in OnePose zur Objektpositionsschätzung verwendet werden.

Um die Vorteile beider Methoden zu nutzen, wurde ein neuartiges System entwickelt, um die keypoint-freie Matching-Technik für die One-Shot-Objektpositionsschätzung anzupassen. Die Autoren schlagen ein spärlich bis dicht besiedeltes 2D-3D-Matching-Netzwerk vor, das effizient genaue 2D-3D-Korrespondenzen für die Posenschätzung herstellt und dabei das schlüsselpunktfreie Design der Architektur voll ausnutzt. Um LoFTR besser an SfM anzupassen, entwerfen sie insbesondere ein Grob-zu-Fein-Schema für eine genaue und vollständige Rekonstruktion halbdichter Objekte. Die grobe bis feine Struktur von LoFTR wird dann zerlegt und in die Rekonstruktionspipeline integriert. Darüber hinaus werden Selbst- und Kreuzaufmerksamkeit zur Modellierung weitreichender Abhängigkeiten verwendet, die für eine robuste 2D-3D-Übereinstimmung und Posenschätzung komplexer realer Objekte erforderlich sind, die normalerweise sich wiederholende Muster oder Regionen mit geringer Textur enthalten.

Nicht erforderliche Cookies zum Anzeigen des Inhalts transparent”allowfullscreen=”true” style=”border:0;” sandbox=”allow-scriptsallow-same-originallow-popupsallow-presentation”>

Die folgende Abbildung bietet einen Vergleich zwischen dem vorgeschlagenen Ansatz und OnePose.

Dies war die Zusammenfassung von OnePose++, einem neuartigen KI-Keypoint-freien One-Shot-Framework zur Schätzung der Objekthaltung ohne CAD-Modelle.

Wenn Sie Interesse haben oder mehr über dieses Framework erfahren möchten, finden Sie einen Link zum Papier und zur Projektseite.

Table of Contents