▷ Forscher der UC Berkeley schlagen eine neuartige Technik namens Chain of Hindsight (CoH) vor, die es LLMs ermöglichen kann, aus jeder Form von Feedback zu lernen und so ...

Hinweis: Der folgende Artikel hilft Ihnen dabei: Forscher der UC Berkeley schlagen eine neuartige Technik namens Chain of Hindsight (CoH) vor, die es LLMs ermöglichen kann, aus jeder Form von Feedback zu lernen und so …

In den letzten Jahren haben groß angelegte neuronale Netze große Aufmerksamkeit bei der Forschung auf sich gezogen. Dies ist vor allem auf ihre herausragenden Leistungen bei verschiedenen Aufgaben zurückzuführen, darunter das Verständnis natürlicher Sprache, das Lösen anspruchsvoller mathematischer Gleichungen und sogar die Vorhersage der Proteinstruktur. Um jedoch sicherzustellen, dass diese Modelle einen konstruktiven Beitrag zur Gesellschaft leisten, ist es entscheidend, dass sie sich an menschlichen Werten orientieren und menschliche Vorlieben berücksichtigen. Die Nutzung menschlichen Feedbacks ist dabei einer der wichtigsten Aspekte, da es Menschen ermöglicht, die Leistung solcher Modelle auf der Grundlage einer breiten Palette von Metriken wie Genauigkeit, Fairness, Voreingenommenheit usw. zu bewerten, und Einblicke in die Funktionsweise dieser Modelle bietet Modelle können verbessert werden, um ethischere Ergebnisse zu erzielen. Um die Effizienz der Einbeziehung von Nutzerfeedback zu verbessern, experimentierten Forscher in den letzten Jahren mit verschiedenen Ansätzen für Human-in-the-Loop-Systeme. Die Ergebnisse zeigen, dass ChatGPT und InstructGPT durch die Nutzung menschlichen Feedbacks zum Lernen erstaunliche Ergebnisse erzielt haben.

Diese Leistungssteigerungen bei der Sprachmodellierung wurden größtenteils einer Strategie zugeschrieben, die auf Supervised Finetuning (SFT) und Reinforcement Learning with Human Feedback (RLHF)-Ansätzen basiert. Obwohl diese Strategien erheblich dazu beigetragen haben, vielversprechende Ergebnisse hinsichtlich der Leistung von Sprachmodellen zu erzielen, haben sie auch ihre eigenen Nachteile. SFT basiert hauptsächlich auf menschlichen Annotationen, wodurch diese Modelle sowohl schwierig zu verwenden als auch ineffizient bei der Datennutzung sind. Da Verstärkungslernen andererseits auf der Basis von Belohnungsfunktionen funktioniert, ist es sehr schwierig, diese Modelle zu optimieren.

Um diesen Problemen entgegenzuwirken, haben Forscher der University of California in Berkeley eine neuartige Technik entwickelt, die sämtliches Feedback in Sätze umwandelt und diese zur Feinabstimmung des Modells verwendet, um das Feedback zu verstehen. Diese als Chain of Hindsight (CoH) bekannte Technik ist größtenteils davon inspiriert, wie Menschen umfangreiches Feedback in Form von Sprachen verarbeiten. Das Ziel der Forscher bei der Entwicklung der Technik bestand darin, die Stärken von SFT und RLHF zu kombinieren und gleichzeitig den Einsatz von Verstärkungslernen zu vermeiden, um das gesamte Feedback vollständig zu nutzen. Ihr aktueller Ansatz nutzt die Fähigkeit der Sprache, Rückmeldungen zu verstehen und daraus zu lernen, und verbessert so letztendlich die Fähigkeit der Modelle, ein breites Spektrum an Aufgaben präziser und effektiver auszuführen.

Die Forscher machten sich die Tatsache zunutze, dass Menschen durch reichhaltiges Feedback in Form von Sprache gut lernen. Angesichts der beeindruckenden Fähigkeiten vorab trainierter Sprachmodelle, effektiv im Kontext zu lernen, fragten sich die Forscher, ob es möglich sei, das gesamte Feedback in einen Satz umzuwandeln und die Modelle so zu trainieren, dass sie dem Feedback folgen. Im Detail schlugen die Forscher eine Feinabstimmung des Modells vor, um Ergebnisse vorherzusagen und sich dabei auf ein oder mehrere sortierte Ergebnisse und deren Feedback in Form von Vergleichen zu stützen. CoH wählt während des Trainings zufällig eine oder mehrere Modellausgaben aus und nutzt sie, um einen Satz zu konstruieren, der sowohl positives als auch negatives Feedback in Form eines Vergleichs enthält. Zwei Beispielsätze können beispielsweise lauten: „Die folgende Zusammenfassung ist schlecht“ und „Die folgende Zusammenfassung ist besser.“ Das Modell nutzt positives Feedback zum Zeitpunkt der Inferenz, um die gewünschten Ergebnisse zu generieren.

Der CoH-Ansatz ermöglicht es Modellen, sowohl aus positivem als auch negativem Feedback zu lernen und so negative Attribute oder Fehler zu identifizieren und zu korrigieren. Die Strategie bietet darüber hinaus eine Reihe zusätzlicher Vorteile. Dazu gehören ein organischerer Feedbackstil und ein Schulungssystem. Außerdem übertrifft die CoH-Technik frühere Ansätze bei der Korrelation von Sprachmodellen mit menschlichen Vorlieben deutlich, wie aus zahlreichen experimentellen Untersuchungen von Forschern hervorgeht. Die Methode wird bei Beurteilungen durch Menschen bevorzugt und schneidet bei Zusammenfassungs- und Diskussionsaufgaben bemerkenswert gut ab. Das Team der UC Berkeley ist fest davon überzeugt, dass CoH ein enormes Potenzial für die zukünftige Verwendung mit verschiedenen anderen Arten von Feedback hat, wie etwa automatischem und numerischem Feedback.

Table of Contents

Forscher der UC Berkeley schlagen eine neuartige Technik namens Chain of Hindsight (CoH) vor, die es LLMs ermöglichen kann, aus jeder Form von Feedback zu lernen und so …

Mehr lesen: