Nota: El siguiente artículo le ayudará: Conozca Dreamix: un novedoso marco de inteligencia artificial (IA) para la edición de vídeo basada en texto
La conversión de texto a imagen es una tarea desafiante en la visión por computadora y el procesamiento del lenguaje natural. Para generar contenido visual de alta calidad a partir de descripciones textuales, se debe capturar la compleja relación entre el lenguaje y la información visual. Si la conversión de texto a imagen ya supone un desafío, la síntesis de texto a vídeo amplía la complejidad de la generación de contenido 2D a 3D, dadas las dependencias temporales entre fotogramas de vídeo.
Un enfoque clásico cuando se trata de contenidos tan complejos es el uso de modelos de difusión. Los modelos de difusión han surgido como una técnica poderosa para resolver este problema al aprovechar el poder de las redes neuronales profundas para generar imágenes fotorrealistas que coinciden con una descripción textual determinada o imágenes de video con consistencia temporal.
Los modelos de difusión funcionan refinando iterativamente el contenido generado a través de una secuencia de pasos de difusión, donde el modelo aprende a capturar las dependencias complejas entre el texto y los dominios visuales. Estos modelos han mostrado resultados impresionantes en los últimos años, logrando un rendimiento de síntesis de texto a imagen y de texto a video de última generación.
Aunque estos modelos ofrecen nuevos procesos creativos, en su mayoría se limitan a la creación de imágenes novedosas y no a la manipulación de imágenes existentes. Para llenar este vacío, recientemente se han desarrollado algunos enfoques que se centran en preservar ciertas características de la imagen, como los rasgos faciales, el fondo o el primer plano, y editar otras.
Cuando se trata de edición de vídeo, la situación cambia. Hasta la fecha, se han utilizado pocos modelos para esta tarea y los resultados han sido escasos. La bondad de una técnica se puede describir por alineación, fidelidad y calidad.
La alineación se refiere al grado de coherencia entre el mensaje y el vídeo resultante. La fidelidad tiene en cuenta el grado de preservación del contenido de entrada original (o al menos la parte a la que no se hace referencia en el mensaje de texto). La calidad representa la definición de la imagen, como la presencia de detalles finos.
El mayor desafío con este tipo de edición de video es mantener la coherencia temporal entre fotogramas. Dado que el uso de métodos de edición a nivel de imagen (cuadro por cuadro) no puede garantizar dicha coherencia, se requieren soluciones diferentes.
Un enfoque interesante para abordar la tarea de edición de video proviene de Dreamix, un novedoso marco de conversión de texto a imagen de inteligencia artificial (IA) basado en modelos de difusión.
La descripción general de Dreamix se presenta a continuación.
El núcleo de este método es permitir que un modelo de difusión de video (VDM) dependiente de texto mantenga una alta fidelidad para el video de entrada dado. ¿Pero cómo?
En lugar de seguir el enfoque clásico y alimentar el modelo con ruido puro como inicialización, los autores primero utilizan una versión degradada del vídeo original. Esta versión tiene poca información espaciotemporal y se obtiene mediante reducción de escala y adición de ruido.
En segundo lugar, el modelo de generación se compara con el vídeo original para mejorar aún más la fidelidad.
El ajuste fino garantiza que el modelo de aprendizaje pueda comprender los detalles más finos de un video de alta resolución. Sin embargo, supongamos que el modelo sólo se refina en el vídeo de entrada. En este caso, es posible que la moción no se pueda editar, ya que se prefiere la moción original a seguir las instrucciones del texto.
Para abordar este problema, los autores proponen un nuevo enfoque llamado ajuste fino mixto. La sintonización mixta sintoniza los modelos de difusión de vídeo (VDM) en fotogramas de vídeo de entrada individuales, sin tener en cuenta el orden temporal. Esto se logra enmascarando la atención temporal. El ajuste mixto da como resultado una mejora significativa en la calidad de las ediciones de movimiento.
A continuación se muestra la comparación de resultados entre Dreamix y los enfoques más modernos.
Este fue el resumen de Dreamix, un novedoso marco de inteligencia artificial para la edición de videos basados en texto.
Si está interesado o desea obtener más información sobre este marco, puede encontrar un enlace al artículo y a la página del proyecto.
