Revolución de la IA: crean videos a partir de un texto
Edición Impresa | 17 de Febrero de 2024 | 02:26

OpenAI, creador de ChatGPT y del generador de imágenes DALL-E, presentó una nueva herramienta llamada “Sora”, capaz de crear, a partir de una simple instrucción en texto, videos realistas de hasta un minuto de duración, una innovación mayor en el campo de la inteligencia artificial.
Creado en base a las búsquedas anteriores en DALL-E y ChatGPT, esta nueva plataforma está todavía en fase de prueba, precisó la start-up californiana aliada a Microsoft, que presentó algunos videos.
El programa puede generar videos de un minuto de duración “con calidad visual y respetando la demanda del usuario”, indicó OpenAI en su sitio web.
Sora puede “generar escenas complejas con varios personajes, movimientos específicos y detalles precisos”, indicó la empresa.
También permite crear un video a partir de una imagen fija, asegura el gigante de la inteligencia artificial (IA). Asimismo, puede alargar videos ya existentes.
Ejemplos
Sam Altman, número uno de OpenAI, dijo en la red social X que su empresa ofrecería “a un número limitado de creadores el acceso” a esta nueva herramienta, en el marco de una etapa experimental.
También invitó a los usuarios a hacer propuestas para generar videos, tras lo cual difundió algunos ejemplos.
Entre estos videos, pueden verse imágenes de dos perros subiendo por la nieve en una montaña.
Otro video muestra cómo un animal imaginario comienza a volar ante un magnífico atardecer. En su lomo monta un hámster con ropa deportiva.
Los ejemplos incluyen vídeos muy realistas, como el de una mujer caminando bajo el resplandor de las farolas de Tokio (Japón), mamuts lanudos galopando por la nieve, una vista aérea de una iglesia en la costa de Amalfi, Italia, y un monstruo de dibujos animados arrodillado curiosamente ante una vela derritiéndose.
Sora es una base para “programas capaces de comprender y simular el mundo real”, explica la start-up, que espera que esta sea una “etapa importante en la concreción de la AGI”, la Inteligencia Artificial General, un sistema altamente autónomo que superaría a los humanos en la mayoría de las tareas económicamente rentables.
OpenAI advierte que el “actual modelo” de la plataforma presenta “defectos”, como una confusión entre izquierda y derecha o la imposibilidad de mantener una continuidad visual durante toda la extensión del video.
“Por ejemplo, una persona puede comer una galleta, pero luego, la galleta puede no exhibir una mordedura”, ejemplificó.
La compañía afirmó que la seguridad es un asunto clave en este desarrollo y afirmó que organizará simulaciones con usuarios a los que se les pedirá tratar de provocar errores o crear contenido inapropiado, para poder definir mejor los límites de la plataforma.
“Involucraremos a tomadores de decisiones políticas, educadores y artistas en el mundo para comprender sus preocupaciones e identificar los casos positivos de uso de esta nueva tecnología”, aseguró OpenAI.
Meta, Google y Runway AI, que trabajan en aplicaciones similares, conocidas como “text-to-video”, es decir que permiten pasar una idea escrita a video, también presentaron muestras de sus avances.
La compañía explicó en su sitio web que el nuevo producto “es capaz de generar un minuto de vídeo de alta fidelidad. Nuestros resultados sugieren que escalar modelos de generación de video es un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico”.
Y, explicaron que Sora es un modelo generalista de datos visuales ya que puede generar vídeos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición.
“Nos inspiramos en grandes modelos de lenguaje que adquieren capacidades generalistas mediante el entrenamiento con datos a escala de Internet. El éxito del paradigma LLM se debe en parte al uso de tokens que unifican elegantemente diversas modalidades de texto: código, matemáticas y varios lenguajes naturales”, aseveró la empresa.
Las noticias locales nunca fueron tan importantes
SUSCRIBITE