▷ Lernen Sie RECITE kennen: Ein neues Paradigma, das großen Sprachmodellen (LLMs) hilft, genaueres Faktenwissen zu generieren, ohne es aus einem externen Korpus abzurufen

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie RECITE kennen: Ein neues Paradigma, das großen Sprachmodellen (LLMs) hilft, genaueres Faktenwissen zu generieren, ohne es aus einem externen Korpus abzurufen

Beim Lernen im Kontext handelt es sich um ein natürliches Sprachparadigma, das die Fähigkeit vorab trainierter Modelle demonstriert, neue Verhaltensweisen zu erfassen, indem nur eine kleine Anzahl von Beispielaufforderungen als Eingabe verwendet wird. Neueste Forschungsergebnisse deuten darauf hin, dass große Sprachmodelle (LLMs) wie GPT-3 und der neueste Trend, ChatGPT, eine herausragende Leistung erzielen können, wenn es um kontextbezogenes Wenig-Schuss-Lernen bei wissensintensiven NLP-Aufgaben geht. Beispielsweise haben LLMs erfolgreich ihre Fähigkeit unter Beweis gestellt, auf willkürliche Sachfragen in Bezug auf die Beantwortung offener Fragen zu antworten, was sich im Wesentlichen auf die Generierung von Antworten auf willkürliche, kontextfreie Fragen bezieht. Forscher haben herausgefunden, dass Retrieval Augmentation für wissensintensive Aktivitäten sehr vorteilhaft sein kann, was die Leistung von LLMs weiter verbessern kann. LLMs führen eine Retrieval-Erweiterung durch, indem sie relevante Dokumente aus einem externen Korpus extrahieren.

Doch in den letzten Jahren haben sich Forscher gefragt, ob LLMs in der Lage sind, genauere Sachdaten ohne die Hilfe von Retrieval Augmented Generation zu erzeugen. Ein Forscherteam von Google Brain und CMU hat bahnbrechende Forschungsarbeiten durchgeführt, die genau dies veranschaulichen! Das Team hat einen brandneuen Ansatz namens RECITation-augmented gEneration (RECITE) entwickelt, bei dem RECITE für eine bestimmte Eingabe zunächst mithilfe von Sampling eine oder mehrere relevante Passagen aus den eigenen Erinnerungen der LLMs abruft, bevor die endgültigen Ergebnisse generiert werden. Der innovative Rezitieren-und-Antwort-Ansatz von RECITE hat bei einer Vielzahl wissensintensiver NLP-Aufgaben, einschließlich der Beantwortung von Closed-Book-Fragen (CBQA), Spitzenleistung bewiesen. Das Forschungspapier des Teams wurde auch auf der prestigeträchtigen ICLR 2023-Konferenz veröffentlicht.

Das von Google Brain-Forschern vorgestellte Paradigma basiert auf der Aufteilung der ursprünglichen wissensintensiven Arbeit in zwei Teilaufgaben: Aufgabenausführung und Wissensrezitation. Das Rezitieren kann als Zwischenprozess des Wissensabrufs betrachtet werden, während die Aufgabenausführung die letzte Phase darstellt, in der die endgültigen Ergebnisse generiert werden. Die Forscher stellten fest, dass LLMs zwar durch Fow-Shot-Prompting bei der Ausführung spezifischer NLP-Aufgaben unterstützt werden können, diese Aufgaben jedoch typischerweise nicht in einem ähnlichen Format wie das ursprüngliche Ziel der kausalen Sprachmodellierung vor dem Training vorliegen. Dies macht es für LLMs häufig schwierig, Informationen genau aus dem Gedächtnis abzurufen. Diese Beobachtung brachte die Forscher auf die Idee, einen zusätzlichen Wissensrezitationsschritt zu nutzen. Die Wissensrezitationsphase wurde einbezogen, um die Sprachmodellierungsaufgabe vor dem Training zu simulieren und letztendlich die Fähigkeit von LLMs zu verbessern, sachliche Informationen zu generieren.

Das ultimative Ziel der Forscher bestand darin, die Fähigkeit eines Menschen zu simulieren, sich an relevante Fakten zu erinnern, bevor er auf wissensintensive Fragen reagiert. Das Team testete und verfeinerte sein Rezitations- und Antwortschema für CBQA-Aufgaben (Closed-Book Question Answer) mit wenigen Schüssen. Diese Aufgaben bestehen aus zwei Teilen: dem Beweisrezitationsmodul, das das Lesen relevanter Passagen erfordert, und dem Frage-Antwort-Modul, in dem Sie aufgefordert werden, Antworten auf der Grundlage der gerade rezitierten Beweise zu finden. Die Forscher präsentierten ein auf Eingabeaufforderungen basierendes System zum Erlernen des Rezitierens, das die Kapazität des LLM für kontextbezogenes Lernen nutzt. Den LLMs wurden gepaarte Beispielfragen und vorgetragene Beweise als Input gegeben, um solche Fälle kontextbezogen zu lernen und die Frage zu rezitieren.

Die Forscher führten viele Tests mit vier vortrainierten Modellen (PaLM, UL2, OPT und Codex) und drei CBQA-Aufgaben (Natural Questions, TriviaQA und HotpotQA) durch, um ihr RECITE-Paradigma zu bewerten. Es wurde festgestellt, dass die CBQA-Leistung bei den Datensätzen Natural Questions und TriviaQA durch die Verwendung verschiedener vorab trainierter Sprachmodelle mit der vorgeschlagenen Rezitations- und Antworttechnik erheblich verbessert werden konnte. Die Forscher machten auch eine interessante Beobachtung: Während die Leistungssteigerungen bei NQ bei verschiedenen Sprachmodellen gleichmäßiger waren, waren die Verbesserungen durch Rezitieren und Antworten bei TriviaQA bei kleineren Sprachmodellen signifikanter. Die wahrscheinliche Ursache dafür könnte sein, dass Fragen im Trivia-Stil häufig mehr Kontextinformationen enthalten, was die Wirkung des Rezitierens für leistungsstarke LLMs wie PaLM verringert.

Auch wenn die von Google Brain Researchers entwickelte Methode beeindruckend ist, muss noch mehr Arbeit geleistet werden. Um zeitkritische Informationen zu aktualisieren, erfordert eine reine LLM-basierte Lösung derzeit eine Schulung oder Feinabstimmung der LLMs auf dem neuen Korpus, was recht rechenintensiv sein kann. An dieser Front wollen die Forscher in naher Zukunft arbeiten. Darüber hinaus planen die Forscher gemäß ihren Zukunftsplänen auch, die Wirksamkeit der durch Rezitation erweiterten Generierung für zusätzliche wissensintensive NLP-Aufgaben im Closed-Book-Kontext wie die Faktenprüfung zu validieren.

Table of Contents

Lernen Sie RECITE kennen: Ein neues Paradigma, das großen Sprachmodellen (LLMs) hilft, genaueres Faktenwissen zu generieren, ohne es aus einem externen Korpus abzurufen

Mehr lesen: