Le modèle Sora innovant d'OpenAI permet de créer des vidéos d'une minute à partir de texte.
Ce n'est qu'hier qu'OpenAI a dévoilé son dernier modèle, baptisé Sora, qui a la capacité de générer des vidéos haute résolution d'une durée maximale d'une minute sur la base d'instructions textuelles. Sora, qui signifie "ciel" en japonais, ne sera pas accessible au grand public dans un avenir proche. Pour l'instant, l'outil est mis à la disposition d'un groupe sélectionné de scientifiques et de chercheurs afin d'évaluer les risques d'abus et de dommages.
Le site web d'OpenAI partage des détails sur ce développement révolutionnaire qui a suscité un large intérêt : "Sora est capable de créer des scénarios complexes avec plusieurs personnages, des gestes spécifiques et des descriptions détaillées d'objets et d'arrière-plans. Le modèle ne comprend pas seulement le souhait de l'utilisateur à partir de l'invite, mais aussi comment ces éléments existent dans le monde réel".
OpenAI a publié quelques vidéos impressionnantes de Sora sur son site web et sur les réseaux sociaux. Ces exemples de vidéos ont notamment fait grand bruit, car la capacité de Sora à créer des vidéos de 60 secondes en a étonné plus d'un. L'une des vidéos montre un couple se promenant dans Tokyo, entouré de pétales de cerisiers et de flocons de neige qui s'envolent.
Introduction de Sora, notre modèle text-to-video.
- OpenAI (@OpenAI) Février 15, 2024
Sora peut créer des vidéos de jusqu'à 60 secondes avec des scènes très détaillées, des mouvements de caméra complexes et de multiples personnages aux émotions vibrantes. https://t.co/7j2JN27M3W
Prompt : "Beautiful, snowy... pic.twitter.com/ruTEWn87vf
Une autre vidéo montre des mammouths plus vrais que nature se promenant dans un paysage enneigé avec en toile de fond d'impressionnantes montagnes enneigées.
Prompt : "Several giant wooly mammoths approaching treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance... pic.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) Février 15, 2024
D'autres vidéos remarquables incluent
Prompt : "Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with... pic.twitter.com/aLMgJPI0y6
- OpenAI (@OpenAI) Février 15, 2024
Oui, impressionnant, mais encore perfectible
OpenAI souligne que Sora est basé sur une "compréhension profonde du langage" qui permet une interprétation précise des textes saisis. Comme d'autres générateurs d'images et de vidéos actuels basés sur l'IA, Sora n'est pas exempt d'erreurs. L'entreprise reconnaît qu'à l'heure actuelle, le modèle a encore du mal à saisir les relations de cause à effet. Il pourrait par exemple générer une vidéo de quelqu'un qui mange un biscuit sans que celui-ci ne porte de traces de morsures. Sur les réseaux sociaux, on a également critiqué le fait que Sora oublie des détails dans les invites et que des imprécisions apparaissent parfois dans les mouvements des personnages, ce qui n'est perceptible que par les spécialistes. Un défaut particulièrement frappant est la bordure blanche et lumineuse qui apparaît autour de la tête d'une femme dans l'une des vidéos, ce qui la distingue nettement de l'arrière-plan et attire fortement l'attention dans certaines scènes. Dans les médias sociaux, les personnes issues du secteur créatif, en particulier, expriment leur inquiétude : "Je vais perdre mon emploi" et "Cela nuit à notre profession".
Bien que Sora ne soit pas le premier modèle à générer des vidéos à partir de texte - des outils similaires sont proposés par Meta, Google et Runway - il se distingue par sa capacité à créer des vidéos jusqu'à 60 secondes d'affilée, au lieu de les assembler image par image, comme c'est le cas avec d'autres modèles.
"Je crains que de telles technologies puissent influencer les élections".
Le développement d'outils permettant de transformer du texte en vidéo a soulevé des inquiétudes quant au potentiel de l'intelligence artificielle à créer de fausses informations. Oren Etzioni, professeur d'intelligence artificielle à l'université de Washington et fondateur de True Media, une organisation qui lutte contre la désinformation dans les médias politiques, a exprimé son inquiétude : "Il est alarmant de penser que de telles technologies pourraient influencer les élections". Ces avancées suscitent également l'opposition des artistes et des créateurs, qui craignent pour leurs emplois et les droits d'auteur.
OpenAI travaille avec des experts pour vérifier que l'outil ne présente pas de risque de désinformation, de discours haineux ou de partialité avant d'être mis à la disposition du public. L'entreprise développe également des outils permettant d'identifier les vidéos créées avec Sora et d'y ajouter des métadonnées afin de faciliter leur reconnaissance. Il a également été souligné que les vidéos du domaine public et les vidéos sous licence sont utilisées par les détenteurs de droits d'auteur, bien qu'aucun détail sur la formation de Sora ne soit actuellement divulgué.