Technologische Neuigkeiten, Bewertungen und Tipps!

Forscher der UC Berkeley und Deepmind schlagen SuccessVQA vor: Eine Neuformulierung der Erfolgserkennung, die für vorab trainierte VLMs wie Flamingo geeignet ist

Hinweis: Der folgende Artikel hilft Ihnen dabei: Forscher der UC Berkeley und Deepmind schlagen SuccessVQA vor: Eine Neuformulierung der Erfolgserkennung, die für vorab trainierte VLMs wie Flamingo geeignet ist

Um die bestmögliche Leistungsgenauigkeit zu erreichen, ist es entscheidend zu verstehen, ob sich ein Agent während des Trainings auf dem richtigen oder bevorzugten Weg befindet. Dies kann in Form einer Gratulation eines Agenten mit einer Belohnung für verstärktes Lernen oder in Form der Verwendung einer Bewertungsmetrik zur Ermittlung der bestmöglichen Richtlinien erfolgen. Daher wird die Fähigkeit, solch erfolgreiches Verhalten zu erkennen, zu einer Grundvoraussetzung bei der Ausbildung fortgeschrittener intelligenter Agenten. Hier kommen Erfolgsdetektoren ins Spiel, mit denen sich klassifizieren lässt, ob das Verhalten eines Agenten erfolgreich ist oder nicht. Frühere Untersuchungen haben gezeigt, dass die Entwicklung domänenspezifischer Erfolgsdetektoren vergleichsweise einfacher ist als die Entwicklung allgemeinerer. Dies liegt daran, dass es ziemlich schwierig ist, zu definieren, was bei den meisten Aufgaben in der realen Welt als Erfolg gilt, da es oft subjektiv ist. Beispielsweise könnte ein KI-generiertes Kunstwerk einige in ihren Bann ziehen, aber das Gleiche gilt nicht für das gesamte Publikum.

In den letzten Jahren haben Forscher verschiedene Ansätze zur Entwicklung von Erfolgsdetektoren entwickelt, darunter die Belohnungsmodellierung mit Präferenzdaten. Allerdings weisen diese Modelle bestimmte Nachteile auf, da sie nur für die festgelegten Aufgaben und Umgebungsbedingungen, die in den präferenzannotierten Trainingsdaten beobachtet werden, eine nennenswerte Leistung erbringen. Um eine Verallgemeinerung sicherzustellen, sind daher mehr Anmerkungen erforderlich, um ein breites Spektrum an Domänen abzudecken, was eine sehr arbeitsintensive Aufgabe darstellt. Wenn es andererseits um Trainingsmodelle geht, die sowohl visuelles als auch sprachliches Input verwenden, sollte die verallgemeinerbare Erfolgserkennung sicherstellen, dass sie in beiden Fällen genaue Messwerte liefert: sprachliche und visuelle Variationen in der jeweiligen Aufgabe. Bestehende Modelle wurden typischerweise für feste Bedingungen und Aufgaben trainiert und sind daher nicht in der Lage, auf solche Variationen zu verallgemeinern. Darüber hinaus erfordert die Anpassung an neue Bedingungen in der Regel das Sammeln eines neuen annotierten Datensatzes und ein erneutes Training des Modells, was nicht immer möglich ist.

Ein Forscherteam der Alphabet-Tochter DeepMind hat an dieser Problemstellung gearbeitet und einen Ansatz zum Trainieren robuster Erfolgsdetektoren entwickelt, die Schwankungen sowohl in den Sprachspezifikationen als auch in den Wahrnehmungsbedingungen standhalten können. Sie haben dies erreicht, indem sie große vortrainierte visuelle Sprachmodelle wie Flamingo und menschliche Belohnungsanmerkungen genutzt haben. Die Studie basiert auf der Beobachtung des Forschers, dass das Vortraining von Flamingo anhand großer Mengen unterschiedlicher Sprach- und Bilddaten zum Training robusterer Erfolgsdetektoren führen wird. Die Forscher behaupten, dass ihr bedeutendster Beitrag die Neuformulierung der Aufgabe der verallgemeinerbaren Erfolgserkennung in ein visuelles Frage-Antwort-Problem (VQA) ist, das als SuccessVQA bezeichnet wird. Dieser Ansatz spezifiziert die anstehende Aufgabe als einfache Ja/Nein-Frage und verwendet eine einheitliche Architektur, die nur aus einem kurzen Clip besteht, der die Zustandsumgebung definiert, und etwas Text, der das gewünschte Verhalten beschreibt.

Das DeepMind-Team zeigte außerdem, dass die Feinabstimmung von Flamingo mit menschlichen Anmerkungen zu einer verallgemeinerbaren Erfolgserkennung in drei Hauptbereichen führt. Dazu gehören interaktive, auf natürlicher Sprache basierende Agenten in einer Haushaltssimulation, reale Robotermanipulation und egozentrische Menschenvideos in freier Wildbahn. Der universelle Charakter der SuccessVQA-Aufgabenformulierung ermöglicht es den Forschern, dieselbe Architektur und denselben Trainingsmechanismus für ein breites Spektrum von Aufgaben aus verschiedenen Bereichen zu verwenden. Darüber hinaus machte es die Verwendung eines vorab trainierten Vision-Language-Modells wie Flamingo erheblich einfacher, die Vorteile des Vortrainings auf einem großen multimodalen Datensatz voll auszuschöpfen. Das Team ist davon überzeugt, dass dadurch eine Verallgemeinerung sowohl für sprachliche als auch für visuelle Variationen möglich wurde.

Um ihre Neuformulierung der Erfolgserkennung zu bewerten, führten die Forscher mehrere Experimente mit unsichtbaren Sprach- und visuellen Variationen durch. Diese Experimente ergaben, dass vorab trainierte Vision-Sprach-Modelle bei den meisten Aufgaben innerhalb der Verteilung eine vergleichbare Leistung erbringen und aufgabenspezifische Belohnungsmodelle in Szenarien außerhalb der Verteilung deutlich übertreffen. Untersuchungen ergaben auch, dass diese Erfolgsdetektoren in der Lage sind, eine Null-Schuss-Verallgemeinerung auf unsichtbare Variationen in Sprache und Vision durchzuführen, wo bestehende Belohnungsmodelle versagt haben. Obwohl der neuartige Ansatz, wie er von DeepMind-Forschern vorgeschlagen wurde, eine bemerkenswerte Leistung aufweist, weist er immer noch gewisse Mängel auf, insbesondere bei Aufgaben im Zusammenhang mit der Robotikumgebung. Die Forscher haben erklärt, dass ihre zukünftige Arbeit darin bestehen wird, weitere Verbesserungen in diesem Bereich vorzunehmen. DeepMind hofft, dass die Forschungsgemeinschaft ihre ersten Arbeiten als einen Schritt auf dem Weg zu mehr Erfolgserkennung und Belohnungsmodellierung betrachtet.

Table of Contents