▷ Lernen Sie Dreamix kennen: Ein neuartiges Framework für künstliche Intelligenz (KI) für die textgesteuerte Videobearbeitung

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie Dreamix kennen: Ein neuartiges Framework für künstliche Intelligenz (KI) für die textgesteuerte Videobearbeitung

Text-zu-Bild ist eine anspruchsvolle Aufgabe in der Computer Vision und der Verarbeitung natürlicher Sprache. Um hochwertige visuelle Inhalte aus Textbeschreibungen zu generieren, muss die komplexe Beziehung zwischen Sprache und visuellen Informationen erfasst werden. Wenn Text-zu-Bild bereits eine Herausforderung darstellt, erweitert die Text-zu-Video-Synthese die Komplexität der 2D-Inhaltsgenerierung angesichts der zeitlichen Abhängigkeiten zwischen Videobildern auf 3D.

Ein klassischer Ansatz beim Umgang mit solch komplexen Inhalten ist die Nutzung von Diffusionsmodellen. Diffusionsmodelle haben sich als leistungsstarke Technik zur Lösung dieses Problems herausgestellt, indem sie die Leistungsfähigkeit tiefer neuronaler Netze nutzen, um fotorealistische Bilder zu erzeugen, die mit einer bestimmten Textbeschreibung oder Videobildern mit zeitlicher Konsistenz übereinstimmen.

Diffusionsmodelle funktionieren, indem sie den generierten Inhalt durch eine Abfolge von Diffusionsschritten iterativ verfeinern, wobei das Modell lernt, die komplexen Abhängigkeiten zwischen dem Text- und dem visuellen Bereich zu erfassen. Diese Modelle haben in den letzten Jahren beeindruckende Ergebnisse gezeigt und eine hochmoderne Text-zu-Bild- und Text-zu-Video-Syntheseleistung erreicht.

Obwohl diese Modelle neue kreative Prozesse bieten, beschränken sie sich meist auf die Erstellung neuartiger Bilder und nicht auf die Bearbeitung vorhandener Bilder. Um diese Lücke zu schließen, wurden in jüngster Zeit einige Ansätze entwickelt, die sich darauf konzentrieren, bestimmte Bildmerkmale wie Gesichtsmerkmale, Hintergrund oder Vordergrund beizubehalten und andere zu bearbeiten.

Bei der Videobearbeitung ändert sich die Situation. Bisher wurden nur wenige Modelle für diese Aufgabe eingesetzt, und die Ergebnisse waren spärlich. Die Güte einer Technik kann durch Ausrichtung, Wiedergabetreue und Qualität beschrieben werden. Die Ausrichtung bezieht sich auf den Grad der Konsistenz zwischen der Eingabeaufforderung und dem Ergebnisvideo. Die Treue berücksichtigt den Grad der Erhaltung des ursprünglichen Eingabeinhalts (oder zumindest des Teils, auf den in der Textaufforderung nicht Bezug genommen wird). Qualität steht für die Definition des Bildes, beispielsweise das Vorhandensein feinkörniger Details.

Die größte Herausforderung bei dieser Art der Videobearbeitung besteht darin, die zeitliche Konsistenz zwischen den Bildern aufrechtzuerhalten. Da die Anwendung von Bearbeitungsmethoden auf Bildebene (Frame-by-Frame) eine solche Konsistenz nicht gewährleisten kann, sind unterschiedliche Lösungen erforderlich.

Ein interessanter Ansatz zur Bewältigung der Videobearbeitungsaufgabe kommt von Dreamix, einem neuartigen Text-zu-Bild-Framework für künstliche Intelligenz (KI), das auf Diffusionsmodellen basiert.

Die Übersicht über Dreamix ist unten dargestellt.

Der Kern dieser Methode besteht darin, ein textbedingtes Videodiffusionsmodell (VDM) zu ermöglichen, um eine hohe Wiedergabetreue für das gegebene Eingabevideo aufrechtzuerhalten. Aber wie?

Anstatt dem klassischen Ansatz zu folgen und dem Modell reines Rauschen als Initialisierung zuzuführen, verwenden die Autoren zunächst eine verschlechterte Version des Originalvideos. Diese Version verfügt über geringe raumzeitliche Informationen und wird durch Herunterskalieren und Rauschaddition erhalten.

Zweitens wird das Generierungsmodell auf das Originalvideo abgestimmt, um die Wiedergabetreue weiter zu verbessern.

Durch die Feinabstimmung wird sichergestellt, dass das Lernmodell die feineren Details eines hochauflösenden Videos verstehen kann. Nehmen wir jedoch an, dass das Modell lediglich anhand des Eingabevideos verfeinert wird. In diesem Fall kann es sein, dass die Bewegung nicht bearbeitet werden kann, da die ursprüngliche Bewegung bevorzugt wird, anstatt den Textanweisungen zu folgen.

Um dieses Problem anzugehen, schlagen die Autoren einen neuen Ansatz namens Mixed Finetuning vor. Bei der gemischten Feinabstimmung werden die Videodiffusionsmodelle (VDMs) auf einzelne Eingangsvideobilder abgestimmt, wobei die zeitliche Reihenfolge außer Acht gelassen wird. Dies wird durch die Maskierung der zeitlichen Aufmerksamkeit erreicht. Die gemischte Feinabstimmung führt zu einer deutlichen Verbesserung der Qualität von Bewegungsbearbeitungen.

Der Vergleich der Ergebnisse zwischen Dreamix und modernsten Ansätzen ist unten dargestellt.

Dies war die Zusammenfassung von Dreamix, einem neuartigen KI-Framework für die textgesteuerte Videobearbeitung.

Wenn Sie Interesse haben oder mehr über dieses Framework erfahren möchten, finden Sie einen Link zum Papier und zur Projektseite.

Table of Contents

Lernen Sie Dreamix kennen: Ein neuartiges Framework für künstliche Intelligenz (KI) für die textgesteuerte Videobearbeitung

Mehr lesen: