▷ CMU-Forscher stellen BUTD-DETR vor: ein Modell der künstlichen Intelligenz (KI), das direkt auf einer Sprachäußerung basiert und alle Objekte erkennt, die in der Äußerung erwähnt werden

Hinweis: Der folgende Artikel hilft Ihnen dabei: CMU-Forscher stellen BUTD-DETR vor: ein Modell der künstlichen Intelligenz (KI), das direkt auf einer Sprachäußerung basiert und alle Objekte erkennt, die in der Äußerung erwähnt werden

Das Finden aller „Objekte“ in einem bestimmten Bild ist die Grundlage der Computer Vision. Indem man ein Vokabular aus Kategorien erstellt und ein Modell trainiert, um Instanzen dieses Vokabulars zu erkennen, kann man die Frage „Was ist ein Objekt?“ vermeiden. Die Situation verschlimmert sich, wenn man versucht, diese Objektdetektoren als praktische Hausmittel zu verwenden. Modelle lernen häufig, das referenzierte Element aus einem Pool von Objektvorschlägen auszuwählen, die ein vorab trainierter Detektor auf Anfrage anbietet, um referenzielle Äußerungen in 2D- oder 3D-Umgebungen zu begründen. Infolgedessen übersieht der Detektor möglicherweise Äußerungen, die sich auf feinere visuelle Dinge beziehen, wie etwa den Stuhl, das Stuhlbein oder die vordere Spitze des Stuhlbeins.

Das Forschungsteam stellt einen Bottom-up, Top-Down DEtection TRansformer (BUTD-DETR pron. Beauty-DETER) als Modell vor, das direkt auf eine gesprochene Äußerung hinweist und alle genannten Elemente findet. BUTD-DETR fungiert als normaler Objektdetektor, wenn die Äußerung eine Liste von Objektkategorien ist. Es wird auf Bild-Sprach-Paarungen trainiert, die mit den Begrenzungsrahmen für alle in der Sprache erwähnten Elemente markiert sind, sowie auf Objekterkennungsdatensätzen mit festem Vokabular. Mit ein paar Optimierungen kann BUTD-DETR jedoch auch Sprachphrasen in 3D-Punktwolken und 2D-Bildern verankern.

Anstatt sie zufällig aus einem Pool auszuwählen, dekodiert BUTD-DETR Objektboxen, indem es auf verbale und visuelle Eingaben achtet. Die von unten nach oben gerichtete, aufgabenunabhängige Aufmerksamkeit kann beim Auffinden eines Gegenstands einige Details übersehen, aber die sprachgesteuerte Aufmerksamkeit füllt die Lücken. Als Input für das Modell dienen eine Szene und eine gesprochene Äußerung. Vorschläge für Boxen werden mithilfe eines bereits trainierten Detektors extrahiert. Als nächstes werden visuelle, Box- und sprachliche Token aus der Szene, den Boxen und der Sprache mithilfe von pro-Modalität-spezifischen Encodern extrahiert. Diese Token gewinnen in ihrem Kontext an Bedeutung, indem sie einander Aufmerksamkeit schenken. Verfeinerte visuelle Tickets lösen Objektabfragen aus, die Boxen dekodieren und sich über viele Streams erstrecken.

Die Praxis der Objekterkennung ist ein Beispiel für eine fundierte Referenzsprache, bei der die Äußerung die Kategoriebezeichnung für das erkannte Ding ist. Forscher nutzen die Objekterkennung als referenzielle Grundlage für Erkennungsaufforderungen, indem sie zufällig bestimmte Objektkategorien aus dem Vokabular des Detektors auswählen und durch deren Reihenfolge synthetische Äußerungen erzeugen (z. B. „Couch. Person. Chair“). Diese Erkennungshinweise werden als zusätzliche Überwachungsinformationen verwendet, mit dem Ziel, alle Vorkommen der im Hinweis angegebenen Kategoriebezeichnungen innerhalb der Szene zu finden. Das Modell wird angewiesen, Boxzuordnungen für Kategoriebezeichnungen zu vermeiden, für die es keine visuellen Eingabebeispiele gibt (z. B. „Person“ im obigen Beispiel). Bei diesem Ansatz kann ein einzelnes Modell Sprache erden und Objekte erkennen, während es für beide Aufgaben dieselben Trainingsdaten nutzt.

Ergebnisse

Das entwickelte MDETR-3D-Äquivalent schneidet im Vergleich zu früheren Modellen schlecht ab, wohingegen BUTD-DETR eine Leistung auf dem neuesten Stand der Technik auf 3D-Sprachbasis erreicht.

BUTD-DETR funktioniert auch im 2D-Bereich und erreicht mit architektonischen Verbesserungen wie verformbarer Aufmerksamkeit eine Leistung, die mit MDETR vergleichbar ist, während die Konvergenz doppelt so schnell ist. Der Ansatz stellt einen Schritt hin zur Vereinheitlichung von Erdungsmodellen für 2D und 3D dar, da er mit geringfügigen Anpassungen leicht an die Funktion in beiden Dimensionen angepasst werden kann.

Bei allen 3D-Spracherdungs-Benchmarks zeigt BUTD-DETR erhebliche Leistungssteigerungen gegenüber modernsten Methoden (SR3D, NR3D, ScanRefer). Darüber hinaus war es die beste Einreichung beim ECCV-Workshop zum Thema Sprache für 3D-Szenen, bei dem der ReferIt3D-Wettbewerb durchgeführt wurde. Wenn BUTD-DETR jedoch auf riesigen Datenmengen trainiert wird, kann es mit den besten bestehenden Ansätzen für 2D-Sprach-Grounding-Benchmarks konkurrieren. Insbesondere ermöglicht die effiziente verformbare Aufmerksamkeit der Forscher auf das 2D-Modell, dass das Modell doppelt so schnell konvergiert wie das hochmoderne MDETR.

Das folgende Video beschreibt den gesamten Arbeitsablauf.

Nicht erforderliche Cookies zum Anzeigen des Inhalts transparent”allowfullscreen=”true” style=”border:0;” sandbox=”allow-scriptsallow-same-originallow-popupsallow-presentation”>

Table of Contents

CMU-Forscher stellen BUTD-DETR vor: ein Modell der künstlichen Intelligenz (KI), das direkt auf einer Sprachäußerung basiert und alle Objekte erkennt, die in der Äußerung erwähnt werden

Mehr lesen: