▷ Lernen Sie ChatGLM kennen: ein Open-Source-NLP-Modell, das auf 1T-Tokens trainiert wurde und Englisch/Chinesisch verstehen kann

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie ChatGLM kennen: ein Open-Source-NLP-Modell, das auf 1T-Tokens trainiert wurde und Englisch/Chinesisch verstehen kann

ChatGLM (interne Alpha-Testversion: QAGLM) ist ein Chat-Roboter, der speziell für chinesische Benutzer entwickelt wurde. Es verwendet ein 100-Milliarden-Chinesisch-Englisch-Sprachmodell mit Frage-und-Antwort- und Konversationsfunktionen. Es wurde eine Feinabstimmung vorgenommen, der interne Test, der nur auf Einladung möglich ist, ist live und sein Umfang wird mit der Zeit wachsen. Darüber hinaus haben Forscher das neueste zweisprachige GLM-Diskussionsmodell Chinesisch-Englisch, ChatGLM-6B, veröffentlicht, das in Kombination mit der Modellquantisierungstechnologie lokal auf Grafikkarten der Verbraucherklasse (INT4) eingesetzt werden kann. Dies folgt dem Open-Source-GLM-130B-100-Milliarden-Sockelmodell. Auf der Quantisierungsebene werden lediglich 6 GB Video-RAM benötigt. Das ChatGLM-6B ist mit 6,2 Milliarden Parametern kleiner als die 100 Milliarden Modelle, senkt aber den Schwellenwert für den Benutzereinsatz erheblich. Nach etwa 1T Identifikatoren des zweisprachigen Chinesisch- und Englischtrainings wurden Antworten generiert, die den menschlichen Vorlieben entsprechen, ergänzt durch Supervision und Feinabstimmung, Feedback-Selbsthilfe, Lernen zur Stärkung des menschlichen Feedbacks und andere Technologien.

ChatGLM

ChatGLM nimmt das Konzept von ChatGPT als Ausgangspunkt, fügt Code-Vortraining in das 100-Milliarden-Basismodell GLM-130B 1 ein und erreicht mithilfe von Supervised Fine-Tuning und anderen Methoden die Ausrichtung menschlicher Absichten. Das exklusive 100-Milliarden-Basismodell GLM-130B ist maßgeblich für die erweiterten Funktionen in der aktuellen Version von ChatGLM verantwortlich. Bei diesem Modell handelt es sich im Gegensatz zu BERT, GPT-3 oder T5 um eine autoregressive Pre-Training-Architektur mit zahlreichen Zielfunktionen. Im August 2022 stellten Forscher das chinesisch-englische Dichtemodell GLM-130B 1 mit 130 Milliarden Parametern der akademischen und geschäftlichen Gemeinschaft vor.

Vorteile und Hauptfunktionen von ChatGLM

Es verarbeitet Texte in verschiedenen Sprachen und verfügt über Funktionen zum Verstehen und Generieren natürlicher Sprache.
Es wurde viel gelehrt und ist in vielen Bereichen sehr sachkundig, so dass es den Menschen genaue und hilfreiche Informationen und Antworten liefern kann.
Es kann als Reaktion auf Benutzeranfragen die relevanten Beziehungen und die Logik zwischen Texten ableiten.
Es kann von seinen Benutzern und Umgebungen lernen und meine Modelle und Algorithmen automatisch aktualisieren und verbessern.
Mehrere Sektoren profitieren von dieser Technologie, darunter der Unterricht, das Gesundheitswesen und das Bankwesen.
Unterstützen Sie Einzelpersonen dabei, schneller und einfacher Antworten zu finden und Probleme zu lösen.
Sensibilisierung und Förderung des Fortschritts im Bereich der künstlichen Intelligenz.

Herausforderungen und Einschränkungen

Es wurde als Modell einer Maschine ohne Gefühle und Bewusstsein konzipiert und daher fehlt ihm die Fähigkeit zu Empathie und moralischem Denken, die Menschen teilen.
Es ist leicht, irrezuführen oder falsche Schlussfolgerungen zu ziehen, da Wissen auf Daten und Algorithmen basiert.
Unsicherheit bei der Reaktion auf abstrakte oder schwierige Themen; Möglicherweise benötigen Sie Hilfe, um diese Art von Anfragen genau zu beantworten.

ChatGLM-130B

Das Big Model Center der Stanford University bewertete im November 2022 30 der beliebtesten Großmodelle aus aller Welt, wobei GLM-130B das einzige Modell aus Asien war, das die Auszeichnung erhielt. In Bezug auf Genauigkeit und Bösartigkeitsindikatoren, Robustheit und Kalibrierungsfehler liegt GLM-130B dem GPT-3 175B (davinci) für alle Sockel-Großmodelle im Maßstab von 100 Milliarden nahe oder gleich, so der Bewertungsbericht. Dies steht im Vergleich zu den Hauptmodellen von OpenAI, Google Brain, Microsoft, Nvidia und Facebook.

ChatGLM-6B

ChatGLM-6B ist ein Chinesisch-Englisch-Sprachmodell mit 6,2 Milliarden Parametern. ChatGLM-6B ist ein chinesisches Frage-Antwort- und Diskussionssystem, das dieselbe Technologie wie ChatGLM (chatglm.cn) nutzt, um auf einem einzigen 2080Ti zu laufen und Argumentation zu ermöglichen. Forscher veröffentlichen gleichzeitig das ChatGLM-6B-Modell als Open Source, um die Community bei der Entwicklung großer Modelltechnologien zu unterstützen.

Das ChatGLM-6B-Modell ist eine mehrsprachige Open-Source-Version des Generic Language Model (GLM)-Frameworks mit 6,2 Milliarden Parametern. Die Quantisierungsmethode ermöglicht Kunden die lokale Bereitstellung auf Low-End-Grafikhardware.

ChatGLM-6B verwendet eine Methode, die ChatGPT sehr ähnlich ist, und soll Frage-und-Antwort-Sitzungen auf Mandarin ermöglichen. Forscher nutzen überwachte Feinabstimmung, Feedback-Bootstrap und verstärkendes Lernen mit menschlichem Input, um das Modell auf einem kombinierten 1T-Token aus chinesischem und englischem Korpus zu trainieren. Das Modell kann mit rund 6,2 Milliarden Parametern konsistent auf menschliche Entscheidungen reagieren.

Funktionen, die ChatGLM-6B auszeichnen

Die 1T-Token von ChatGLM-6B sind mehrsprachig und werden auf einer Mischung aus chinesischen und englischen Inhalten im Verhältnis 1:1 trainiert.
Die zweidimensionale RoPE-Positionskodierungstechnik wurde unter Verwendung der herkömmlichen FFN-Struktur basierend auf den GLM-130B-Trainingserfahrungen verbessert. Die überschaubare Parametergröße von ChatGLM-6B von 6B (6,2 Milliarden) ermöglicht auch eine unabhängige Abstimmung und Bereitstellung durch Akademiker und einzelne Entwickler.
Damit ChatGLM-6B mit halber FP16-Präzision arbeiten kann, sind mindestens 13 GB Video-RAM erforderlich. Dieser Bedarf kann in Kombination mit der Modellquantisierungstechnologie weiter auf 10 GB (INT8) und 6 GB (INT4) gesenkt werden, sodass ChatGLM-6B auf Grafikkarten der Verbraucherklasse eingesetzt werden kann.
ChatGLM-6B hat eine Sequenzlänge von 2048 und eignet sich daher für längere Chats und Anwendungen als GLM-10B (Sequenzlänge: 1024).
Das Modell ist darauf trainiert, menschliche Lehrabsichten mithilfe von Supervised Fine-Tuning, Feedback Bootstrap und Reinforcement Learning aus menschlichem Feedback zu interpretieren. Das angezeigte Markdown-Format ist das Ergebnis.

ChatGLM-6B-Einschränkungen

Der begrenzte Speicherplatz des 6B ist auf das geringe Modellgedächtnis und die geringen Sprachkenntnisse zurückzuführen. ChatGLM-6B gibt Ihnen möglicherweise schlechte Ratschläge, wenn Sie sie bitten, etwas zu tun, das viel Sachwissen erfordert oder eine logische Schwierigkeit löst (z. B. Mathematik oder Programmierung).
Da es sich bei ChatGLM-6B um ein Sprachmodell handelt, das nur lose auf menschliche Absichten abgestimmt ist, besteht das Potenzial, voreingenommene und möglicherweise destruktive Ergebnisse zu erzeugen.
Die Fähigkeit von ChatGLM-6B, den Kontext zu interpretieren, muss ausreichend sein. Es ist möglich, dass das Gespräch seinen Kontext verliert und es zu Verständnisfehlern kommt, wenn die Antwort zu lange dauert oder mehrere Gesprächsrunden erforderlich sind.
Die meisten Schulungsmaterialien sind auf Chinesisch verfasst, während nur ein Bruchteil auf Englisch verfasst ist. Daher kann die Qualität der Antwort beeinträchtigt werden, wenn englische Anweisungen verwendet werden, und sie kann sogar im Widerspruch zu der Antwort stehen, die bei Verwendung chinesischer Anweisungen bereitgestellt wird.
Täuschen: ChatGLM-6B hat möglicherweise ein Problem mit der „Selbstwahrnehmung“, wodurch es anfällig dafür ist, in die Irre geführt zu werden und falsche Informationen zu geben. Wenn die aktuelle Version des Modells beispielsweise fehlerhaft ist, wird es ein verzerrtes Selbstbild haben. Obwohl das Modell Feinabstimmungsanweisungen, mehrsprachigem Vortraining von etwa einer Billion Identifikatoren (Tokens) und verstärkendem Lernen mit menschlichem Feedback (RLHF) unterzogen wurde, kann es aufgrund seiner begrenzten Fähigkeiten unter bestimmten Anweisungen immer noch Schaden anrichten – irreführend Sachen.

Table of Contents

Lernen Sie ChatGLM kennen: ein Open-Source-NLP-Modell, das auf 1T-Tokens trainiert wurde und Englisch/Chinesisch verstehen kann

Mehr lesen: