Technologische Neuigkeiten, Bewertungen und Tipps!

Lernen Sie MAGVIT kennen: einen neuartigen maskierten generativen Videotransformator zur Bewältigung von KI-Videogenerierungsaufgaben

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie MAGVIT kennen: einen neuartigen maskierten generativen Videotransformator zur Bewältigung von KI-Videogenerierungsaufgaben

Modelle der künstlichen Intelligenz werden in letzter Zeit sehr leistungsfähig, da die für den Trainingsprozess verwendete Datensatzgröße und die für die Ausführung der Modelle erforderliche Rechenleistung zugenommen haben.

Dieser Zuwachs an Ressourcen und Modellfähigkeiten führt in der Regel zu einer höheren Genauigkeit als bei kleineren Architekturen. Aufgrund der geringen Stichprobengröße im Vergleich zur Datenvarianz oder unausgeglichenen Klassenstichproben wirken sich auch kleine Datensätze in ähnlicher Weise auf die Leistung neuronaler Netze aus.

Während die Fähigkeiten und die Genauigkeit des Modells steigen, sind in diesen Fällen die ausgeführten Aufgaben auf sehr wenige und spezifische Aufgaben beschränkt (z. B. Inhaltsgenerierung, Bild-Inpainting, Bild-Outpainting oder Frame-Interpolation).

Ein neuartiges Framework namens MAsked Generative VIdeo Transformer,

Um diese Einschränkung zu überwinden, wurde MAGVIT (MAGVIT) vorgeschlagen, das zehn verschiedene Generierungsaufgaben umfasst.

Wie von den Autoren berichtet, wurde MAGVIT entwickelt, um Frame Prediction (FP), Frame Interpolation (FI), Central Outpainting (OPC), Vertical Outpainting (OPV), Horizontal Outpainting (OPH), Dynamic Outpainting (OPD) und Central Inpainting ( IPC) und Dynamic Inpainting (IPD), klassenbedingte Generierung (CG), klassenbedingte Frame-Vorhersage (CFP).

Die Übersicht über die Pipeline der Architektur ist in der folgenden Abbildung dargestellt.

Kurz gesagt besteht die Idee hinter dem vorgeschlagenen Framework darin, ein transformatorbasiertes Modell zu trainieren, um ein beschädigtes Bild abzurufen. Die Korruption wird hier als maskierte Token modelliert, die sich auf Teile des Eingaberahmens beziehen.

Insbesondere modelliert MAGVIT ein Video als Folge visueller Token im latenten Raum und lernt, maskierte Token mit BERT (Bidirektionale Encoder-Repräsentationen von Transformers) vorherzusagen, einem transformatorbasierten maschinellen Lernansatz, der ursprünglich für die Verarbeitung natürlicher Sprache (NLP) entwickelt wurde.

Der vorgeschlagene Rahmen besteht aus zwei Hauptmodulen.

Zunächst werden Vektoreinbettungen (oder Tokens) durch 3D-Vektorquantisierungs-Encoder (VQ) erzeugt, die das Video quantisieren und in eine Folge diskreter Tokens verflachen.

2D- und 3D-Faltungsschichten werden zusammen mit 2D- und 3D-Upsampling- oder Downsampling-Schichten genutzt, um räumliche und zeitliche Abhängigkeiten effizient zu berücksichtigen.

Das Downsampling wird vom Encoder durchgeführt, während das Upsampling im Decoder implementiert wird, dessen Ziel darin besteht, das Bild zu rekonstruieren, das durch das vom Encoder bereitgestellte Vektor-Token dargestellt wird.

Zweitens wird ein MTM-Schema (Masked Token Modeling) für die Multitasking-Videogenerierung genutzt.

Im Gegensatz zum herkömmlichen MTM bei der Bild-/Videosynthese wird eine Einbettungsmethode vorgeschlagen, um eine Videobedingung mithilfe einer multivariaten Maske zu modellieren.

Das multivariate Maskierungsschema erleichtert das Lernen für Videogenerierungsaufgaben mit unterschiedlichen Bedingungen.

Die Bedingungen können ein räumlicher Bereich für Inpainting/Outpainting oder einige Frames für Frame-Vorhersage/Interpolation sein.

Das Ausgabevideo wird gemäß dem maskierten Konditionierungstoken generiert und bei jedem Schritt nach der Vorhersage verfeinert.

Basierend auf berichteten Experimenten behaupten die Autoren dieser Studie, dass die vorgeschlagene Architektur die beste veröffentlichte FVD (Fréchet Video Distance) für drei Benchmarks der Videogeneration ermittelt.

Darüber hinaus übertrifft MAGVIT den Ergebnissen zufolge bestehende Methoden in der Inferenzzeit um zwei Größenordnungen gegenüber Diffusionsmodellen und um das 60-fache gegenüber autoregressiven Modellen.

Schließlich wurde ein einzelnes MAGVIT-Modell entwickelt, um zehn verschiedene Generierungsaufgaben zu unterstützen und Videos aus verschiedenen visuellen Bereichen zu verallgemeinern.

In der folgenden Abbildung werden einige Ergebnisse zur Generierung von Klassenkonditionierungsstichproben im Vergleich zu modernsten Ansätzen dargestellt. Die weiteren Aufgaben entnehmen Sie bitte dem Papier.

Dies war die Zusammenfassung von MAGVIT, einem neuartigen KI-Framework zur gemeinsamen Bewältigung verschiedener Videogenerierungsaufgaben. Bei Interesse finden Sie weitere Informationen unter den untenstehenden Links.

Table of Contents