Technologische Neuigkeiten, Bewertungen und Tipps!

Willkommen zur neuen Saga von MusicLM: Dieses KI-Modell kann Musik aus Textbeschreibungen generieren

Hinweis: Der folgende Artikel hilft Ihnen dabei: Willkommen zur neuen Saga von MusicLM: Dieses KI-Modell kann Musik aus Textbeschreibungen generieren

In den letzten Monaten kam es zu einer Explosion generativer KI-Modelle. Wir haben Modelle gesehen, die realistische Bilder aus Textaufforderungen, Textgenerierung in einem bestimmten Thema, Videogenerierung aus Texteingaben usw. generieren können. Der Fortschritt ging so schnell, dass wir irgendwann dachten, der Vorhang zwischen Realität und virtueller Realität würde fast fallen.

Wir sind mit den visuellen und textuellen Generierungsmodellen noch nicht fertig. Sie haben noch einen langen Weg vor sich, bis sie einen Punkt erreichen, an dem es nicht mehr möglich ist, zwischen KI-generierten und von Menschen erstellten Inhalten zu unterscheiden. Bis dahin lehnen wir uns zurück und genießen die schönen Fortschritte.

Apropos Fortschritt: Die Menschen denken nicht an andere Anwendungsfälle. Wir haben zahlreiche Modelle gesehen, die auf Text-zu-Bild, Text-zu-Video, Text-zu-Sprache usw. ausgerichtet sind. Machen Sie sich jetzt bereit für die nächste Saga von Text-zu-X-Modellen. Text-zu-Musik.

Die Aufgabe, Audio aus einer bestimmten Bedingung zu generieren, wird als bedingte neuronale Audiogenerierung bezeichnet. Zu diesen Aufgaben gehören Text-to-Speech, textbedingte Musikgenerierung und Audiosynthese aus MIDI-Sequenzen. Die meisten bestehenden Arbeiten in diesem Bereich basieren auf der zeitlichen Ausrichtung des Quellsignals, also des , mit der entsprechenden Audioausgabe.

Andererseits ließen sich einige Studien vom Erfolg von Text-zu-Bild-Modellen inspirieren und untersuchten die Generierung von Audio aus allgemeineren Untertiteln wie „.“ Allerdings waren diese Modelle in ihrer Erzeugungskapazität begrenzt und konnten nur für wenige Sekunden einfache akustische Geräusche erzeugen. Wir stehen also immer noch vor der Herausforderung, mit einer einzigen Textbeschriftung eine reichhaltige Audiosequenz mit langfristiger Konsistenz und vielen Stämmen zu generieren, ähnlich einem Musikclip. Nun, sagen wir einfach, es sieht so aus, als ob die Herausforderung jetzt fast abgeschlossen ist, dank MusicLM.

Durch die Behandlung der Audioerzeugung als Sprachaufgabe mithilfe eines Systems aus einfachen bis komplexen Audioeinheiten, wie beispielsweise Wörtern in einem Satz, wird der Audioklang mit der Zeit besser und konsistenter. Bestehende Modelle nutzten diesen Ansatz und MusicLM folgt demselben Trend. Die größte Herausforderung besteht hier jedoch darin, einen geeigneten, großen Datensatz zu erstellen.

Was Text-zu-Bild-Datensätze betrifft, verfügen wir über viele umfangreiche Datensätze, die viel zur bedeutenden Entwicklung in den letzten Jahren beigetragen haben. Diese Art von Datensatz fehlt für die Text-zu-Audio-Aufgabe, was es wirklich schwierig macht, groß angelegte Modelle zu trainieren. Außerdem ist die Erstellung von Textunterschriften für die Musik nicht so einfach wie die Erstellung von Bildunterschriften. Es ist schwierig, die hervorstechenden Merkmale akustischer Szenen oder Musik mit nur wenigen Worten zu erfassen. Wie kann man all diese Vocals, Rhythmen, Instrumente usw. beschreiben? Außerdem ist der Ton kontinuierlich; es hat keine stabile Struktur als Bild. Dies macht sequenzweite Untertitel zu einer viel schwächeren Anmerkungsebene für Audio.

MusicLM löst dieses Problem durch die Verwendung eines vorhandenen Modells, MuLan, das darauf trainiert ist, Musik auf die entsprechende Textbeschreibung zu projizieren. MuLan projiziert Audios in einen gemeinsamen Einbettungsraum, sodass während der Trainingsphase keine Untertitel erforderlich sind, sodass MusicLM während des Trainings nur die Audiodaten verwenden kann. Insgesamt verwendet MusicLM MuLan-Einbettungen, die während des Trainings aus dem Audio berechnet werden, und MuLan-Einbettungen, die während der Inferenz aus dem Text berechnet werden.

MusicLM ist der Beginn einer neuen Ära der Text-zu-Musik. Es wird mit einem großen, unbeschrifteten Musikdatensatz trainiert. Es kann lange und zusammenhängende Musik mit 24 kHz und komplexen Textbeschreibungen erzeugen. Außerdem schlagen sie einen Bewertungsdatensatz namens MusicCaps vor, der von Experten erstellte Musikbeschreibungen enthält und zur Bewertung kommender Text-zu-Musik-Modelle verwendet werden könnte.

Table of Contents