▷ Lernen Sie LETI kennen: Ein Paradigma zur Feinabstimmung des neuen Sprachmodells (LM), das das Potenzial von LM erforscht, aus Textinteraktionen zu lernen

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie LETI kennen: Ein Paradigma zur Feinabstimmung des neuen Sprachmodells (LM), das das Potenzial von LM erforscht, aus Textinteraktionen zu lernen

Mit der zunehmenden Beliebtheit von Large Language Models (LLMs) werden fast täglich neue Forschungsergebnisse und Fortschritte vorgestellt. Mithilfe von Deep-Learning-Technologien und der Leistungsfähigkeit künstlicher Intelligenz entwickeln sich LLMs kontinuierlich weiter und verbreiten sich in allen Bereichen. LLMs werden auf riesigen Mengen an Rohtext trainiert und um ihre Leistung zu verbessern, werden diese Modelle fein abgestimmt. Während des Feinabstimmungsprozesses werden LLMs anhand direkter Trainingssignale, die ihre Leistung messen, auf bestimmte Aufgaben trainiert, z. B. Klassifizierungsgenauigkeit, Beantwortung von Fragen, Zusammenfassung von Dokumenten usw.

Kürzlich wurde ein neues Feinabstimmungsparadigma namens LETI (Learn from Textual Interactions) eingeführt, das sich mit dem Potenzial befasst, das große Sprachmodelle aus Textinteraktionen und Feedback lernen können. Mit LETI können Sprachmodelle nicht nur verstehen, ob sie falsch waren, sondern auch, warum sie falsch waren. Dieser Ansatz ermöglicht es LLMs, die Grenzen des Lernens ausschließlich anhand von Labels und skalaren Belohnungen zu überwinden.

Das Forscherteam hinter der Entwicklung von LETI hat erwähnt, wie dieser Ansatz textliches Feedback zum Sprachmodell liefert. Es hilft dabei, die Korrektheit der Modellausgaben mithilfe binärer Labels zu überprüfen und Fehler im generierten Code zu identifizieren und zu erklären. Das LETI-Paradigma ähnelt dem iterativen Prozess der Softwareentwicklung, bei dem ein Entwickler ein Programm schreibt, es testet und es anhand von Feedback verbessert. In ähnlicher Weise optimiert LETI das LLM durch die Bereitstellung von Text-Feedback, das Bugs und Irrtümer aufzeigt.

Während des Feinabstimmungsprozesses erhält das Modell eine Problembeschreibung in natürlicher Sprache und generiert anschließend eine Reihe von Lösungen. Ein Lösungsevaluator bewertet diese Lösungen dann anhand einer Reihe von Testfällen. Die Forscher nutzten einen Python-Interpreter, um die aus dem generierten Code erhaltenen Fehlermeldungen und Stack-Traces als Quelle für textliches Feedback zu nutzen. Der Solution Evaluator ist der Python-Interpreter.

Die zur Feinabstimmung des Modells verwendeten Trainingsdaten bestehen aus drei Komponenten: Anweisungen in natürlicher Sprache, LM-generierte Programme und Textfeedback. Wenn das generierte Programm keine Lösung bereitstellen kann, erfolgt eine Rückmeldung an den LLM. Andernfalls wird dem Modell ein Belohnungstoken in Form eines binären Feedbacks zur Verfügung gestellt, um es zu ermutigen, eine genaue Lösung zu generieren. Das generierte Text-Feedback wird im Feinabstimmungsprozess des LM verwendet, der als Feedback-Conditioned Fine-Tuning bezeichnet wird.

Für den Bewertungsprozess haben die Forscher einen Datensatz von Codegenerierungsaufgaben verwendet, der als MBPP-Datensatz (Multiple Big Programming Problems) bezeichnet wird. Die Ergebnisse haben gezeigt, dass LETI die Leistung von zwei Basis-LMs unterschiedlicher Maßstäbe im MBPP-Datensatz erheblich verbessert, ohne dass für das Training Ground-Truth-Ausgaben erforderlich sind. Im HumanEval-Datensatz erreicht LETI bei unsichtbaren Problemen eine ähnliche oder bessere Leistung als die Basis-LMs. Darüber hinaus haben Forscher herausgefunden, dass die Verwendung von Text-Feedback es dem Modell im Vergleich zu binärem Feedback ermöglicht, die gleiche Leistung zu erzielen, jedoch mit weniger Gradientenschritten.

Zusammenfassend lässt sich sagen, dass LETI ein großartiger Ansatz zur Feinabstimmung ist, der Sprachmodelle durch die Verwendung detaillierter Textrückmeldungen verbessert. Es ermöglicht ihnen, aus Fehlern zu lernen und die Leistung bei Aufgaben wie der Codegenerierung zu verbessern. LETI scheint vielversprechend.

Table of Contents

Lernen Sie LETI kennen: Ein Paradigma zur Feinabstimmung des neuen Sprachmodells (LM), das das Potenzial von LM erforscht, aus Textinteraktionen zu lernen

Mehr lesen: