Google ha anunciado el desarrollo de “Imagen Video”, un sistema con Inteligencian Artificial (IA) capaz de producir videos de 1280×768 (HD) a 24 fotogramas por segundo a partir de una indicación escrita.

Sólo seis meses después del lanzamiento del generador de texto a imagen DALLE-2 de OpenAI, los avances en el campo de los modelos de difusión de la IA se han acelerado. El anuncio de Imagen Video de Google se produce a menos de una semana después de que Meta presentara su herramienta de IA de texto a vídeo denominada “Make-A-Video”.

Según el documento de investigación de Google, Imagen Video incluye varias capacidades estilísticas notables, como la generación de vídeos basados en la obra de pintores famosos (los cuadros de Vincent van Gogh, por ejemplo), la generación de objetos giratorios en 3D conservando la estructura del objeto y la representación de texto en una variedad de estilos de animación. Google confía en que los modelos de síntesis de vídeo de uso general puedan “disminuir significativamente la dificultad de generar contenidos de alta calidad”.

Youtube video

La clave de las capacidades de Imagen Video es una “cascada” de siete modelos de difusión que transforman el texto inicial (como “un oso lavando los platos”) en un vídeo de baja resolución (16 fotogramas, 24×48 píxeles, a 3 fps), y luego lo escala a resoluciones progresivamente más altas con velocidades de fotogramas más elevadas en cada paso. El vídeo final tiene una duración de 5,3 segundos.

Los ejemplos de vídeo presentados en el sitio web de Imagen Video van desde lo mundano (“Helado derritiéndose por el cono”) hasta lo más fantástico (“Volando a través de una intensa batalla entre barcos piratas en un océano tormentoso”). Contienen artefactos obvios, pero muestran más fluidez y detalle que modelos anteriores de conversión de texto en imagen como CogVideo, que debutó hace cinco meses.

Los datos de entrenamiento de Google Imagen Video proceden del conjunto de datos de imagen-texto LAION-400M, disponible públicamente, y de “14 millones de pares de vídeo-texto y 60 millones de pares de imagen-texto”, según Google. Como resultado, se ha entrenado con “datos problemáticos” filtrados por Google, pero aún así puede contener contenido sexualmente explícito y violento, así como estereotipos sociales y sesgos culturales. A la empresa también le preocupa que su herramienta pueda ser utilizada “para generar contenido falso, odioso, explícito o dañino”.

Como resultado, es poco probable que veamos un lanzamiento público a corto plazo: “Hemos decidido no publicar el modelo de Imagen Video ni su código fuente hasta que se mitiguen estas preocupaciones”, afirma Google.