▷ Forscher aus Stanford veröffentlichen Alpaca: Ein Anweisungsfolgemodell basierend auf Meta AI LLaMA 7B

Hinweis: Der folgende Artikel hilft Ihnen dabei: Forscher aus Stanford veröffentlichen Alpaca: Ein Anweisungsfolgemodell basierend auf Meta AI LLaMA 7B

Die Wirksamkeit von Modellen zur Befolgung von Anweisungen wie GPT-3.5 (text-da Vinci-003), ChatGPT, Claude und Bing Chat hat zugenommen. Mittlerweile werden diese Versionen von Verbrauchern täglich genutzt, einige nehmen sie sogar mit an den Arbeitsplatz. Trotz ihrer Beliebtheit weisen Modelle zur Befolgung von Anweisungen immer noch erhebliche Mängel auf. Dazu gehört, sie darin zu schulen, irreführende Ergebnisse zu liefern, die schädliche gesellschaftliche Stereotypen und giftige Sprache aufrechterhalten können.

Ein qualitativ hochwertiges Modelltraining zur Anweisungsbefolgung ist mit einem Studentenbudget schwierig, da es ein leistungsfähiges vorab trainiertes Sprachmodell und reichlich hochwertige Daten zur Anweisungsbefolgung erfordert. Aufgrund des Fehlens eines öffentlich verfügbaren Modells mit vergleichbaren Funktionen zu Closed-Source-Modellen wie dem text-DaVinci-003 von OpenAI wurde die akademische Forschung zu Modellen zur Befehlsverfolgung behindert.

Eine aktuelle Studie des Stanford Institute for Human-Centered Artificial Intelligence (HAI) veröffentlichte Alpaca, ein Anweisungsfolgemodell basierend auf Meta AI LLaMA 7B. Mithilfe von text-da-Vinci-003 von OpenAI erstellten die Forscher 52.000 Demonstrationen der Befolgung von Anweisungen im Stil des Selbstunterrichts, die zum Trainieren des Alpaka-Modells verwendet wurden. Alpaca zeigt viele der gleichen Verhaltensweisen wie text-DaVinci-003 von OpenAI auf dem Self-Instruct-Evaluierungssatz, ist jedoch bemerkenswert kompakt und einfach/günstig zu reproduzieren.

Als Daten erstellte das Team Beispiele für die Befolgung von Anweisungen, indem es den Selbstanweisungsansatz erweiterte. Zunächst verwendeten sie das Self-Instruct-Seed-Set, das aus 175 von Menschen geschriebenen Befehls-Ausgabe-Paaren besteht. Der Seed-Satz wurde in text-DaVinci-003 eingespeist, das auf der Grundlage dieser Beispiele weitere Anweisungen generierte. Sie vereinfachten die Erzeugungspipeline, um sie effizienter als die Selbstlerntechnik zu machen, und senkten den Preis erheblich. Mithilfe der OpenAI-API entwickelten die Forscher 52.000 einzigartige Anweisungen und die zugehörigen Ausgaben für weniger als 500 US-Dollar.

Mithilfe der Trainingsarchitektur von Hugging Face und Methoden wie Fully Sharded Data-Parallel und Mixed Precision Training verfeinerten sie die LLaMA-Modelle mithilfe dieses Datensatzes von Personen, die Anweisungen gehorchten. Bei ihrem ersten Durchlauf wurden acht 80-GB-A100-Geräte verwendet, was bei den meisten Cloud-Computing-Anbietern weniger als 100 US-Dollar kostet, um ein 7B-LLaMA-Modell zu optimieren. Das Team erkennt Verbesserungspotenzial bei der Schulungseffizienz, was zu größeren Einsparungen führen könnte.

Die menschliche Bewertungsmethode (durchgeführt von den 5 studentischen Autoren) wurde auf die Eingaben des Selbstanweisungsbewertungssatzes angewendet, um zu bestimmen, wie gut das Alpaka abschneidet. Die Ersteller der Leitfäden zum Selbststudium haben dieses Bewertungsset zusammengestellt, das Anleitungen zu einer Vielzahl von Themen wie E-Mail-Verfassen, soziale Medien und Produktivitätssoftware bietet. Durch einen blinden paarweisen Vergleich wurde beobachtet, dass text-da-vinci-003 und Alpaca 7B ähnlich gut abschnitten.

Zusätzlich zur Verwendung dieses statischen Bewertungssatzes haben die Forscher interaktive Alpaka-Modelltests durchgeführt. Sie haben herausgefunden, dass es bei verschiedenen Eingaben häufig ein Verhalten zeigt, das mit text-davinci-003 übereinstimmt.

Alpakas haben viele Mängel von Sprachmodellen mit anderen Sprachen gemeinsam, beispielsweise ihre Neigung zu Wahnvorstellungen, Toxizität und Stereotypisierung. Selbst im Vergleich zu text-da-vinci-003 ist Halluzination bei Alpakas ein besonders häufiger Fehlermodus.

Das Team möchte herausfinden, wie das Trainingsrezept Talente für ihre zukünftige Arbeit hervorbringt. Mit Techniken wie automatischem Red Teaming, Auditing und adaptiven Tests wollen sie außerdem die von Alpakas ausgehenden Bedrohungen besser verstehen und reduzieren.

Besuche die Github, Mi Demo und Blog. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 16k+ ML SubReddit, Discord-KanalUnd E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

➡️ Ultimativer Leitfaden zur Datenkennzeichnung beim maschinellen Lernen

Table of Contents

Forscher aus Stanford veröffentlichen Alpaca: Ein Anweisungsfolgemodell basierend auf Meta AI LLaMA 7B

Mehr lesen: