L'innovativo modello Sora di OpenAI consente di creare video di un minuto a partire da un testo.
Proprio ieri OpenAI ha presentato il suo ultimo modello chiamato Sora, in grado di generare video ad alta risoluzione della durata massima di un minuto sulla base di istruzioni testuali. Sora, che in giapponese significa "paradiso", non sarà presto disponibile al grande pubblico. Lo strumento è attualmente a disposizione di un gruppo selezionato di scienziati e ricercatori per valutare il rischio di uso improprio e di danni.
Il sito web di OpenAI fornisce i dettagli di questo sviluppo innovativo, che ha suscitato grande interesse: "Sora è in grado di creare scenari complessi con più personaggi, gesti specifici e descrizioni dettagliate di oggetti e sfondi. Il modello non solo capisce il desiderio dell'utente dal prompt, ma anche come questi elementi esistono nel mondo reale".
OpenAI ha pubblicato alcuni video impressionanti di Sora sul suo sito web e sui social network. Questi video campione in particolare hanno fatto scalpore, perché la capacità di Sora di creare video di 60 secondi ha stupito molti. Uno dei video mostra una coppia che cammina per Tokyo, circondata da petali di ciliegio in fiore e fiocchi di neve.
Vi presentiamo Sora, il nostro modello text-to-video.
- OpenAI (@OpenAI) 15 febbraio 2024
Sora può creare video fino a 60 secondi con scene altamente dettagliate, movimenti complessi della telecamera e personaggi multipli con emozioni vibranti. https://t.co/7j2JN27M3W
Prompt: "Bella, innevata... pic.twitter.com/ruTEWn87vf
Un altro video mostra mammut realistici che si aggirano in un paesaggio innevato sullo sfondo di imponenti montagne innevate.
Prompt: "Diversi giganteschi mammut lanosi si avvicinano camminando in un prato innevato, la loro lunga pelliccia lanosa soffia leggermente nel vento mentre camminano, alberi coperti di neve e drammatiche montagne innevate in lontananza, luce di metà pomeriggio con nuvole vaporose e un sole alto in lontananza... pic.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) 15 febbraio 2024
Altri video degni di nota sono:
Prompt: "La scena animata presenta un primo piano di un mostro basso e soffice inginocchiato accanto a una candela rossa che si sta sciogliendo. lo stile artistico è 3d e realistico, con un'attenzione particolare all'illuminazione e alla texture. lo stato d'animo del dipinto è di meraviglia e curiosità, mentre il mostro guarda la fiamma con... pic.twitter.com/aLMgJPI0y6
- OpenAI (@OpenAI) 15 febbraio 2024
Sì, impressionante, ma ancora migliorabile
OpenAI sottolinea che Sora si basa sulla "comprensione profonda del linguaggio", che consente un'interpretazione precisa degli input testuali. Come altri generatori di immagini e video attualmente supportati dall'intelligenza artificiale, Sora non è impeccabile. L'azienda ammette che attualmente il modello ha ancora difficoltà a riconoscere le relazioni causali. Ad esempio, potrebbe generare un video di qualcuno che mangia un biscotto senza che il biscotto mostri i segni dei morsi. Sui social network è stato anche criticato il fatto che Sora non tiene conto di alcuni dettagli nei suggerimenti e che ci sono occasionali imprecisioni nelle sequenze di movimento dei personaggi che vengono notate solo dagli esperti. Un difetto particolarmente evidente è il bordo bianco e luminoso che appare intorno alla testa di una donna in uno dei video, che la distingue chiaramente dallo sfondo ed è molto evidente in alcune scene. Sui social media, soprattutto i creativi hanno espresso preoccupazione: "Perderò il mio lavoro" e "Questo danneggia la nostra professione".
Sebbene Sora non sia il primo modello che genera video a partire dal testo - strumenti simili sono offerti anche da Meta, Google e Runway - si distingue per la capacità di creare video fino a 60 secondi alla volta invece di comporli fotogramma per fotogramma, come avviene con altri modelli.
"Temo che tali tecnologie possano influenzare le elezioni".
Lo sviluppo di strumenti per convertire il testo in video ha sollevato preoccupazioni sul potenziale dell'intelligenza artificiale di creare disinformazione. Oren Etzioni, professore di intelligenza artificiale all'Università di Washington e fondatore di True Media, un'organizzazione dedicata alla lotta contro la disinformazione nei media politici, ha espresso preoccupazione: "È allarmante che tali tecnologie possano influenzare le elezioni". Questi progressi stanno portando anche alla resistenza di artisti e creativi che temono per il loro lavoro e per i loro diritti d'autore.
OpenAI sta collaborando con esperti per verificare il rischio di disinformazione, incitamento all'odio e pregiudizio prima di rilasciarlo al pubblico. L'azienda sta inoltre sviluppando strumenti per identificare i video creati con Sora e aggiungere metadati per facilitarne il riconoscimento. È stato inoltre sottolineato che sia i video di dominio pubblico che quelli concessi in licenza sono utilizzati dai detentori del copyright, anche se al momento non sono stati resi noti i dettagli della formazione di Sora.