▷ In diesem KI-Papier wird SELF-REFINE vorgestellt: Ein Framework zur Verbesserung der ersten Ergebnisse von LLMs durch iteratives Feedback und Verfeinerung

Hinweis: Der folgende Artikel hilft Ihnen dabei: In diesem KI-Papier wird SELF-REFINE vorgestellt: Ein Framework zur Verbesserung der ersten Ergebnisse von LLMs durch iteratives Feedback und Verfeinerung

Iterative Verfeinerung ist ein Schlüsselaspekt menschlicher Problemlösung. Bei der iterativen Verfeinerung handelt es sich um einen Prozess, bei dem ein erster Entwurf erstellt und anschließend durch Selbstfeedback verbessert wird. Wenn jemand beispielsweise eine E-Mail an einen Kollegen schreibt, um ihn um ein Dokument zu bitten, verwendet er zunächst eine einfache Aufforderung wie „Geben Sie mir die Daten sofort.“ Nach einigem Nachdenken erkannte der Autor jedoch, dass der Satz als unfreundlich angesehen werden könnte, und änderte ihn in „Könnten Sie mir freundlicherweise die Daten zur Verfügung stellen?“ Mithilfe von iterativem Feedback und Modifikation zeigen sie in dieser Studie, dass große Sprachmodelle (LLMs) diesen kognitiven Prozess beim Menschen erfolgreich nachahmen können.

Obwohl LLMs in der Anfangsphase in der Lage sind, kohärente Ergebnisse zu liefern, versagen sie häufig bei der Bewältigung komplexerer Anforderungen, insbesondere bei Aufgaben mit mehreren Zielen (z. B. der Generierung von Dialogantworten mit Kriterien wie Relevanz, Ansprechendkeit und Sicherheit der Antwort) oder solchen mit weniger klaren Zielen (z. B. Verbesserung der Programmlesbarkeit). Moderne LLMs können in solchen Fällen verständliche Ergebnisse liefern. Dennoch ist eine iterative Verbesserung erforderlich, um sicherzustellen, dass alle Aufgabenanforderungen erfüllt werden und das entsprechende Qualitätsniveau erreicht wird.

Fortgeschrittene Methoden, die auf Belohnungs- und Überwachungsmodellen von Drittanbietern basieren, erfordern entweder enorme Mengen an Trainingsdaten oder teure menschliche Anmerkungen, die oft praktisch zu beschaffen sind. Diese Nachteile verdeutlichen die Notwendigkeit einer anpassungsfähigeren und effizienteren Methode zur Textgenerierung, die für viele Aufgaben mit wenig Überwachung eingesetzt werden kann. In dieser Studie schlagen Forscher von CMU, Allen Institute, University of Washington, NVIDIA, UCSD und Google Research vor, mit SELF-REFINE diese Einschränkungen zu überwinden und den menschlichen kreativen Produktionsprozess ohne eine kostspielige menschliche Rückkopplungsschleife besser nachzubilden. (Abbildung 1).

Die beiden Hälften von SELF-REFINE – FEEDBACK und REFINE – arbeiten in einem iterativen Zyklus zusammen, um qualitativ hochwertige Ergebnisse zu erzielen. Sie übertragen dasselbe Modell M (1), einen ersten Ausgabeentwurf, der von Modell M (0) erstellt wurde, um Feedback (1) zu empfangen. Dasselbe Modell (3) erhält Feedback zur ursprünglichen Produktion, wodurch die ursprünglich produzierte Ausgabe iterativ verbessert (0) wird. Dieser Vorgang wird iterativ wiederholt, bis das Modell erkennt, dass keine weitere Verbesserung mehr erforderlich ist. An diesem Punkt endet der Prozess. Die zentrale These dieser Studie ist, dass in einer Situation mit wenigen Schüssen dasselbe zugrunde liegende Sprachmodell für Feedback und Verfeinerung zuständig ist.

SELF-REFINE bietet die erste iterative Strategie zur Verbesserung der Generierung unter effektiver Nutzung von NL-Feedback.

Abbildung 1 zeigt die Vorgehensweise an einem Beispiel. Sie verwenden SELF-REFINE, um verschiedene Aufgaben zu erledigen, die sich über viele Bereiche erstrecken und Feedback- und Überarbeitungstechniken erfordern, wie z. B. das Umschreiben von Rezensionen, die Erstellung von Akronymen, die eingeschränkte Generierung, die Generierung von Erzählungen, das Umschreiben von Code, die Generierung von Antworten und die Eliminierung von Toxizität. Ihre Kernkomponenten werden mithilfe einer Few-Shot-Prompting-Strategie instanziiert, die es uns ermöglicht, einige wenige Instanzen zu verwenden, um das Lernen des Modells anzukurbeln. Ihr iterativer Ansatz, der Experimente, Komponentenanalysen, verschiedene Aufgaben, die Generierung von nützlichem Feedback und Stoppkriterien umfasst, soll als Leitfaden für zukünftige Forschungen auf diesem Gebiet dienen.

Ihre Beiträge sind in Kürze:

Um LLMs dabei zu helfen, bei einer Vielzahl von Aufgaben besser zu werden, schlagen sie SELF-REFINE vor, eine einzigartige Technik, die es ihnen ermöglicht, ihre Ergebnisse durch wiederholtes Feedback zu verbessern. Im Gegensatz zu früheren Bemühungen erfordert ihre Methode ein einziges LLM, das Reinforcement Learning oder überwachte Trainingsdaten nutzt.
Sie führen umfangreiche Experimente zu sieben verschiedenen Aufgaben durch – Review-Umschreiben, Akronym-Generierung, Story-Generierung, Code-Umschreiben, Antwortgenerierung, eingeschränkte Generierung und Beseitigung von Toxizität – und zeigen, dass SELF-REFINE mindestens 5 % besser abschneidet – und manchmal sogar mehr als 40 % besser – als eine direkte Erzeugung aus leistungsstarken Generatoren wie GPT-3.5 und sogar GPT-4.

Table of Contents

In diesem KI-Papier wird SELF-REFINE vorgestellt: Ein Framework zur Verbesserung der ersten Ergebnisse von LLMs durch iteratives Feedback und Verfeinerung

Mehr lesen: