Technologische Neuigkeiten, Bewertungen und Tipps!

Eine neue Forschung zur künstlichen Intelligenz (KI) konzentriert sich auf die Personalisierung generativer Kunst, indem einem Modell viele neue Konzepte gleichzeitig beigebracht und kombiniert werden …

Hinweis: Der folgende Artikel hilft Ihnen dabei: Eine neue Forschung zur künstlichen Intelligenz (KI) konzentriert sich auf die Personalisierung generativer Kunst, indem einem Modell viele neue Konzepte gleichzeitig beigebracht und kombiniert werden …

Text-zu-Bild-Generierung Die Verwendung von Diffusionsmodellen war in den letzten Jahren ein heißes Thema in der generativen Modellierung. Diffusionsmodelle sind in der Lage, qualitativ hochwertige Bilder der während des Trainings erlernten Konzepte zu erzeugen, diese Trainingsdatensätze sind jedoch sehr umfangreich und nicht personalisiert. Jetzt wünschen sich Benutzer eine gewisse Personalisierung dieser Modelle; Anstatt Bilder eines beliebigen Hundes an einer beliebigen Stelle zu erstellen, möchte der Benutzer Bilder seines Hundes an einer beliebigen Stelle in seinem Haus erstellen. Eine einfache Lösung für dieses Problem besteht darin, das Modell neu zu trainieren, indem die neuen Informationen in den Datensatz einbezogen werden. Es gibt jedoch bestimmte Einschränkungen: ErsteZum Erlernen eines neuen Konzepts benötigt das Modell eine sehr große Datenmenge, der Benutzer kann jedoch nur über wenige Beispiele verfügen. ZweiteDas erneute Trainieren des Modells, wann immer wir ein neues Konzept erlernen müssen, ist äußerst ineffizient. DritteDas Erlernen neuer Konzepte führt dazu, dass die zuvor erlernten Konzepte vergessen werden.

Um diese Einschränkungen zu beheben, hat ein Forscherteam von Carnegie Mellon University, Tsinghua University und Adobe Research schlägt eine Methode zum Erlernen mehrerer neuer Konzepte vor, ohne dass das Modell vollständig neu trainiert werden muss, und verwendet nur einige Beispiele. Sie führten ihre Experimente und Erkenntnisse in der Arbeit auf „Multikonzept-Anpassung der Text-zu-Bild-Diffusion.

In diesem Artikel schlug das Team eine Feinabstimmungstechnik vor: Benutzerdefinierte Diffusion für die Text-zu-Bild-Diffusionsmodelle, das eine kleine Teilmenge von Modellgewichten identifiziert, sodass die Feinabstimmung nur dieser Gewichte ausreicht, um die neuen Konzepte zu modellieren. Gleichzeitig verhindert es katastrophales Vergessen und ist äußerst effizient, da nur eine sehr kleine Anzahl von Parametern trainiert wird. Um das Vergessen, die Vermischung ähnlicher Konzepte und die Überanpassung an das neue Konzept weiter zu vermeiden, wird ein kleiner Satz realer Bilder mit einer den Zielbildern ähnlichen Beschriftung ausgewählt und dem Modell während der Feinabstimmung zugeführt (Abbildung 2).

Die Methode basiert auf Stable Diffusion und bei der Feinabstimmung werden bis zu 4 Bilder als Trainingsbeispiele verwendet.

Wir haben festgestellt, dass die Feinabstimmung nur eines kleinen Satzes von Parametern effektiv und äußerst effizient ist. Aber wie wählen wir diese Parameter aus und warum funktioniert das?

Die Idee hinter dieser Antwort ist lediglich eine Beobachtung aus Experimenten. Das Team trainierte die vollständigen Modelle anhand des Datensatzes mit neuen Konzepten und beobachtete sorgfältig, wie sich die Gewichte verschiedener Schichten veränderten. Das Ergebnis der Beobachtung war . Das Team nutzte dies und kam zu dem Schluss, dass das Modell erheblich angepasst werden konnte, indem nur die Queraufmerksamkeitsebenen feinabgestimmt wurden. Und es funktioniert großartig.

Darüber hinaus gibt es in diesem Ansatz noch einen weiteren wichtigen Baustein: Der Regularisierungsdatensatz. Da wir zur Feinabstimmung nur wenige Beispiele verwenden, kann das Modell zu stark an das Zielkonzept angepasst sein und zu einer Sprachdrift führen. . Um dies zu vermeiden, wird ein Satz von 200 Bildern aus dem ausgewählt LAION-400M Datensatz mit entsprechenden Bildunterschriften, die den Bildunterschriften des Zielbilds sehr ähnlich sind. Durch die Feinabstimmung dieses Datensatzes lernt das Modell das neue Konzept und überarbeitet gleichzeitig die zuvor erlernten Konzepte. Dadurch wird das Vergessen und die Vermischung von Konzepten vermieden (Abbildung 5).

Die folgenden Abbildungen und Tabellen zeigen die Ergebnisse der Arbeiten:

Dieses Papier kommt zu dem Schluss Benutzerdefinierte Verbreitung ist eine effiziente Methode für

Erweiterung bestehender Text-zu-Bild-Modelle. Anhand weniger Beispiele kann es sich schnell ein neues Konzept aneignen und in neuartigen Umgebungen mehrere Konzepte zusammenstellen. Die Autoren fanden heraus, dass die Optimierung nur weniger Parameter des Modells ausreichte, um diese neuen Konzepte darzustellen und gleichzeitig speicher- und recheneffizient zu sein.

Es gibt jedoch einige Einschränkungen vorab trainierter Modelle, die das fein abgestimmte Modell erbt. Wie in Abbildung 11 dargestellt, bleiben schwierige Kompositionen, z. B. , eine Herausforderung. Darüber hinaus ist es auch problematisch, drei oder mehr Konzepte zu verfassen. Die Beseitigung dieser Einschränkungen kann eine zukünftige Richtung für die Forschung auf diesem Gebiet sein.

Table of Contents