OpenAI, la startup de inteligencia artificial, ha presentado su propio modelo de texto a vídeo llamado Sora.
Este nuevo desarrollo sigue la estela de otros competidores en el mercado, como Google, que recientemente ofreció un avance de una herramienta similar.
Sin embargo, Sora destaca por su capacidad para generar videos de hasta 1 minuto de duración, superando así a su competidor directo, Lumiere de Google.
Fortalezas de Sora
Una de las características más destacadas de Sora es su capacidad para interpretar textos largos como entradas. Esto incluye ejemplos que contienen hasta 135 palabras.
Los videos de muestra compartidos por OpenAI demuestran que Sora puede crear una variedad de personajes y escenas, desde personas y animales hasta paisajes urbanos y naturales, incluyendo jardines zen e incluso la ciudad de Nueva York sumergida bajo el agua.
Este logro se debe en parte al trabajo previo de OpenAI con modelos como DALL-E y GPT. Sora aprovecha la técnica de recaptura de DALL-E 3 que genera subtítulos altamente descriptivos para los datos de entrenamiento visual.
Además, Sora puede generar videos a partir de imágenes fijas y extender videos existentes o rellenar fotogramas faltantes, lo que demuestra una versatilidad en la creación de contenido visual.
Ejemplos de Sora
Prompt: “Varios mamuts lanudos gigantes se acercan caminando a través de un prado nevado, su largo pelaje lanudo se mueve ligeramente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas cubiertas de nieve en la distancia, luz de media tarde con nubes tenues y un sol alto en la distancia crea un brillo cálido, la vista baja de la cámara es impresionante y captura al gran mamífero peludo con hermosas fotografías y profundidad de campo”
Prompt: “La escena animada presenta un primer plano de un monstruo bajo y esponjoso arrodillado junto a una vela roja que se derrite. El estilo artístico es 3D y realista, con especial atención a la iluminación y la textura. El ambiente de la pintura es de asombro y curiosidad, mientras el monstruo mira la llama con los ojos muy abiertos y la boca abierta. su pose y expresión transmiten una sensación de inocencia y alegría, como si estuviera explorando el mundo que lo rodea por primera vez. el uso de colores cálidos y una iluminación espectacular realza aún más la atmósfera acogedora de la imagen”
Limitaciones de Sora
A pesar de sus fortalezas, Sora tiene debilidades, como dificultades para representar con precisión la física de una escena compleja y para entender la relación causa-efecto.
Por ejemplo, puede haber discrepancias entre la acción realizada y su representación visual, como una mordida en una galleta que no deja marca.
Además, Sora también puede confundir conceptos básicos como izquierda y derecha, lo que sugiere que aún existen aspectos por mejorar en términos de comprensión y representación precisa del mundo físico.
Futuro de Sora
OpenAI no ha proporcionado una fecha específica para la disponibilidad generalizada de Sora, pero ha expresado su compromiso con la seguridad y la ética en el desarrollo de esta tecnología.
La empresa busca implementar medidas de seguridad que cumplan con los estándares establecidos, incluyendo la prohibición de contenido violento, sexual, de odio y el uso indebido de propiedad intelectual de terceros.
A pesar de las limitaciones actuales, OpenAI cree que aprender de la utilización real de Sora es crucial para crear sistemas de inteligencia artificial cada vez más seguros y éticos con el tiempo.