Technologische Neuigkeiten, Bewertungen und Tipps!

CMU-Forscher schlagen TIDEE vor: einen verkörperten Agenten, der noch nie zuvor gesehene Räume ohne explizite Anweisung aufräumen kann

Hinweis: Der folgende Artikel hilft Ihnen dabei: CMU-Forscher schlagen TIDEE vor: einen verkörperten Agenten, der noch nie zuvor gesehene Räume ohne explizite Anweisung aufräumen kann

Eine effektive Roboterbedienung erfordert mehr als nur blindes Gehorsam gegenüber vorgegebenen Befehlen. Roboter sollen bei offensichtlichen Abweichungen von der Norm reagieren und aus unvollständigen Anweisungen wichtige Zusammenhänge ableiten können. Teilweiser oder selbst erstellter Unterricht erfordert die Art von Argumentation, die ein solides Verständnis davon erfordert, wie sich Dinge in der Umgebung (Objekte, Physik, andere Agenten usw.) verhalten sollten. Diese Art des Denkens und Handelns ist ein entscheidender Bestandteil des verkörperten gesunden Menschenverstandes, der für die natürliche Funktionsweise und Interaktion von Robotern in der realen Welt unerlässlich ist.

Das Feld des verkörperten gesunden Menschenverstandes ist hinter verkörperten Agenten zurückgeblieben, die spezifische Schritt-für-Schritt-Anweisungen befolgen können, da diese lernen müssen, ohne explizite Anweisungen zu beobachten und zu handeln. Verkörperter gesunder Menschenverstand, Denken kann durch Aufgaben wie Aufräumen untersucht werden, bei denen der Agent Gegenstände an den falschen Orten erkennen und Korrekturmaßnahmen ergreifen muss, um sie an einen geeigneteren Ort zurückzubringen. Der Agent muss intelligent navigieren und manipulieren, während er an wahrscheinlichen Orten nach zu verschiebenden Objekten sucht, erkennt, wenn sich Dinge außerhalb ihrer natürlichen Position in der aktuellen Szene befinden, und bestimmen, wo die Objekte neu positioniert werden müssen, damit sie sich an den richtigen Orten befinden. Bei dieser Herausforderung vereinen sich vernünftige Überlegungen zur Platzierung von Objekten und die wünschenswerten Fähigkeiten intelligenter Wesen.

TIDEE ist ein vorgeschlagener verkörperter Agent, der vom Forschungsteam entwickelt wurde und ohne Anleitung Räume reinigen kann, die er noch nie zuvor gesehen hat. TIDEE ist der erste Typ, da es eine Szene nach Elementen scannen kann, die nicht dort sind, wo sie sein sollten, herausfinden kann, wo in der Szene sie platziert werden sollen, und sie dann präzise dorthin verschieben kann.

TIDEE untersucht die Umgebung eines Hauses, findet verlegte Dinge, leitet mögliche Objektkontexte für sie ab, lokalisiert solche Kontexte in der aktuellen Szene und verschiebt die Objekte zurück an ihren richtigen Standort. Die Prioritäten des gesunden Menschenverstands werden in einem visuellen Suchnetzwerk codiert, das die Erkundung des Agenten leitet, um das interessierende Gefäß in der aktuellen Szene effizient zu lokalisieren und das Objekt neu zu positionieren. ii) visuell-semantische Detektoren, die deplatzierte Objekte erkennen; und iii) ein assoziatives neuronales Graphgedächtnis von Dingen und räumlichen Beziehungen, das plausible semantische Behälter und Oberflächen für die Neupositionierung von Objekten vorschlägt. Mithilfe der AI2THOR-Simulationsumgebung testeten die Forscher TIDEE auf Herz und Nieren, indem sie chaotische Umgebungen bereinigen ließen. TIDEE erledigt die Aufgabe direkt anhand von Pixel- und Rohtiefeneingaben, ohne zuvor denselben Raum gesehen zu haben, und verwendet nur frühere Daten, die aus einer anderen Sammlung von Schulungsheimen gelernt wurden. Nach menschlichen Einschätzungen der daraus resultierenden Raumaufteilungsänderungen schneidet TIDEE besser ab als ablative Varianten des Modells, die einen oder mehrere der allgemeingültigen Prioritäten ausschließen.

TIDEE kann Räume aufräumen, die es noch nie zuvor gesehen hat, ohne Anleitung oder vorherige Begegnung mit den betreffenden Orten oder Objekten. TIDEE tut dies, indem es sich in der Umgebung umsieht, Gegenstände identifiziert und sie als normal oder abnormal kennzeichnet. TIDEE nutzt Grapheninferenz für sein Szenendiagramm und den externen Diagrammspeicher, um potenzielle Behälterkategorien abzuleiten, wenn ein Objekt fehl am Platz ist. Anschließend nutzt es die räumliche semantische Karte der Szene, um ein bildbasiertes Suchnetzwerk zu möglichen Standorten von Behälterkategorien zu steuern.

Wie funktioniert es?

TIDEE reinigt Räume in drei verschiedenen Schritten. TIDEE scannt zunächst den Bereich und führt bei jedem Zeitschritt einen Anomaliedetektor aus, bis ein verdächtiges Objekt gefunden wird. TIDEE bewegt sich dann dorthin, wo sich der Gegenstand befindet, und greift ihn. Der zweite Schritt besteht darin, dass TIDEE auf der Grundlage des Szenendiagramms und des gemeinsamen externen Diagrammspeichers einen wahrscheinlichen Behälter für das Element ableitet. Wenn TIDEE den Container noch nicht erkannt hat, nutzt es ein visuelles Suchnetzwerk, um die Erkundung des Gebiets zu steuern und Vorschläge zu machen, wo der Container entdeckt werden könnte. TIDEE behält die geschätzten 3D-Schwerpunkte zuvor identifizierter Objekte im Speicher und nutzt diese Informationen für die Navigation und Objektverfolgung.

Die visuellen Eigenschaften jedes Gegenstands werden mit einem handelsüblichen Objektdetektor erfasst. Gleichzeitig werden die relationalen Sprachmerkmale durch die Eingabe vorab trainierter Sprachmodellvorhersagen für die 3D-Beziehungen zwischen den Objekten (z. B. „neben“, „unterstützt von“, „über“ usw.) erzeugt.

TIDEE enthält ein neuronales Graphenmodul, das so programmiert ist, dass es mögliche Ideen zur Platzierung von Gegenständen vorhersieht, sobald ein Gegenstand aufgenommen wurde. Ein zu platzierendes Element, ein Speichergraph, der plausible Kontextverbindungen enthält, die aus Trainingsszenarien gelernt wurden, und ein Szenengraph, der die Objektbeziehungskonfiguration in der aktuellen Szene kodiert, interagieren alle, um die Funktion des Moduls zu gewährleisten.

TIDEE nutzt ein optisches Suchnetzwerk, das anhand der semantischen Hinderniskarte und einer Suchkategorie die Wahrscheinlichkeit der Anwesenheit eines Objekts an jedem räumlichen Punkt in einer Hinderniskarte vorhersagt. Der Agent untersucht dann die Bereiche, in denen sich seiner Meinung nach das Ziel am wahrscheinlichsten aufhält.

TIDEE hat zwei Mängel, die beide offensichtliche Richtungen für zukünftige Forschung sind: Es berücksichtigt weder den offenen und geschlossenen Zustand von Gegenständen, noch bezieht es deren 3D-Position als Teil des chaotischen und umstrukturierenden Prozesses ein.

Es ist möglich, dass das Chaos, das durch das achtlose Verstreuen von Dingen in einem Raum entsteht, nicht repräsentativ für das Chaos im wirklichen Leben ist.

TIDEE erledigt die Aufgabe direkt anhand der Pixel- und Rohtiefeneingabe, ohne zuvor denselben Raum gesehen zu haben, und nutzt dabei nur frühere Daten, die aus einer anderen Sammlung von Schulungsheimen gelernt wurden. Nach menschlichen Einschätzungen der daraus resultierenden Raumaufteilungsänderungen schneidet TIDEE besser ab als ablative Varianten des Modells, die einen oder mehrere der Priors des gesunden Menschenverstandes ausschließen. Eine vereinfachte Modellversion übertrifft eine leistungsstärkste Lösung bei einem vergleichbaren Raumneuordnungs-Benchmark bei weitem und ermöglicht es dem Agenten, den objektiven Zustand vor der Neuordnung zu beobachten.

Table of Contents