▷ Google AI stellt FRMT vor: einen neuen Datensatz und Bewertungsbenchmark für die regionalbezogene maschinelle Übersetzung mit wenigen Aufnahmen

Hinweis: Der folgende Artikel hilft Ihnen dabei: Google AI stellt FRMT vor: einen neuen Datensatz und Bewertungsbenchmark für die regionalbezogene maschinelle Übersetzung mit wenigen Aufnahmen

In den letzten Jahren hat die maschinelle Übersetzung (MT) große Fortschritte gemacht und hervorragende Ergebnisse für viele Sprachpaare erzielt, insbesondere für diejenigen, für die viele parallele Daten verfügbar sind. Einige frühere Arbeiten befassten sich mit feinkörnigeren Unterscheidungen, beispielsweise zwischen regionalen Variationen des Arabischen oder genauen Maßstäben der Höflichkeit im Deutschen, obwohl der MT-Job normalerweise auf dem breiten Niveau einer Sprache (wie Spanisch oder Hindi) vergeben wird. Leider basieren die meisten vorhandenen Methoden zur stilorientierten Übersetzung auf großen, gekennzeichneten Trainingskorpora, deren Erstellung häufig entweder nicht verfügbar oder zu teuer ist.

Kürzlich veröffentlichte Untersuchungen von Google stellen Few-Shot Region-Aware Machine Translation (FRMT) vor, einen Benchmark für Few-Shot-Übersetzung, der die Fähigkeit eines MT-Modells bewertet, in regionale Varianten zu übersetzen, wobei nicht mehr als 100 gekennzeichnete Instanzen jeder Sprachvariante verwendet werden.

Um Ähnlichkeiten zwischen ihren Trainingsbeispielen und der geringen Anzahl gekennzeichneter Instanzen („Exemplare“) zu finden, müssen MT-Modelle die in den gekennzeichneten Beispielen hervorgehobenen Sprachmuster verwenden. Dadurch können Modelle verallgemeinert und Phänomene, die in den Beispielen nicht vorhanden sind, korrekt übersetzt werden.

Der FRMT-Datensatz besteht aus teilweise übersetzten Versionen englischer Wikipedia-Artikel in verschiedene regionale portugiesische und mandarinische Dialekte, die dem Wiki40b-Datensatz entnommen wurden. Das Team erstellte den Datensatz unter Verwendung von drei Inhaltsbereichen, um die wichtigsten regionalbezogenen Übersetzungsprobleme hervorzuheben:

Lexikalisch: Der lexikalische Bereich konzentriert sich auf Wortwahlen, die je nach Bereich variieren. Das Team sammelte manuell 20–30 Begriffe mit regional unterschiedlichen Übersetzungen. Sie haben die Übersetzungen anhand der Beiträge freiwilliger Muttersprachler aus jeder Region gefiltert und überprüft. Sie nahmen die endgültige Liste der englischen Begriffe und extrahierten Texte aus den entsprechenden englischen Wikipedia-Artikeln mit jeweils bis zu 100 Sätzen (z. B. Bus). Das identische Verfahren wurde unabhängig für Mandarin durchgeführt.
Entität: Der Entitäts-Bucket ist mit Personen, Orten oder anderen Entitäten gefüllt, die eng mit einer der beiden betreffenden Regionen für eine bestimmte Sprache verbunden sind.
Der Random-Bucket enthält Text aus 100 zufällig ausgewählten Artikeln aus den „Featured“- und „Excellent“-Sammlungen von Wikipedia. Es wird verwendet, um zu überprüfen, ob ein Modell verschiedene Vorkommnisse angemessen verarbeitet.

Die Forscher führten eine menschliche Bewertung der Qualität der Übersetzungen durch, um sicherzustellen, dass sie die regionalspezifischen Phänomene im FRMT-Datensatz genau wiedergeben. Das Multi-dimensional Quality Metrics (MQM)-Framework wurde von Expertenannotatoren aus jeder Region genutzt, um Übersetzungsfehler zu finden und zu klassifizieren. Das Framework beinhaltet einen kategorieweisen Gewichtungsmechanismus, um die identifizierten Fehler in einer einzigen Bewertung zusammenzufassen, die im Allgemeinen die Anzahl der schwerwiegenden Fehler pro Satz darstellt.

Die Forscher luden MQM-Bewerter ein, Übersetzungen aus jeder Region und Übersetzungen aus der anderen Region ihrer Sprache zu bewerten. Das Team stellte fest, dass die Bewerter sowohl im Portugiesischen als auch im Chinesischen im Durchschnitt zwei größere Fehler pro Phrase in den Übersetzungen bemerkten, die nicht übereinstimmten, als in den Übersetzungen, die übereinstimmten. Dies beweist, dass der vorgeschlagene Datensatz lokale Phänomene genau widerspiegelt.

Der beste Weg, die Modellqualität sicherzustellen, ist die menschliche Inspektion. Dieser Prozess ist jedoch häufig zeitaufwändig und kostspielig. Daher untersuchten die Forscher chrF, BLEU und BLEURT, um eine vorhandene automatische Metrik zu identifizieren, die Forscher verwenden können, um ihre Modelle anhand des vorgeschlagenen Benchmarks zu bewerten. Die Ergebnisse legen nahe, dass BLEURT die beste Korrelation mit menschlichen Bewertungen aufweist und dass der Grad dieser Korrelation mit der Inter-Annotator-Konsistenz vergleichbar ist, indem Übersetzungen aus einigen Basismodellen verwendet werden, die auch von unseren MQM-Bewertern überprüft wurden.

Das Team hofft, dass ihre Arbeit der Forschungsgemeinschaft dabei hilft, neue MT-Modelle zu entwickeln, die der unterrepräsentierten Sprachvielfalt und allen Sprechergemeinschaften besser gerecht werden und letztendlich zu mehr Inklusivität in der Technologie natürlicher Sprache führen.

Table of Contents

Google AI stellt FRMT vor: einen neuen Datensatz und Bewertungsbenchmark für die regionalbezogene maschinelle Übersetzung mit wenigen Aufnahmen

Mehr lesen: