OpenAI'nin yenilikçi Sora modeli, metinden bir dakikalık videolar oluşturulmasını sağlıyor.
OpenAI daha dün, metin talimatlarına dayalı olarak bir dakikaya kadar uzunlukta yüksek çözünürlüklü videolar üretebilen Sora adlı son modelini tanıttı. Japonca'da "cennet" anlamına gelen Sora, yakın zamanda genel kullanıma sunulmayacak. Araç şu anda kötüye kullanım ve zarar verme riskini değerlendirmek üzere seçkin bir grup bilim insanı ve araştırmacıya sunuluyor.
OpenAI web sitesi, büyük ilgi gören bu çığır açan gelişmenin ayrıntılarını paylaşıyor: "Sora, birden fazla karakter, belirli hareketler ve nesnelerin ve arka planların ayrıntılı açıklamalarıyla karmaşık senaryolar oluşturabiliyor. Model yalnızca kullanıcının komut isteminden ne istediğini anlamakla kalmıyor, aynı zamanda bu unsurların gerçek dünyada nasıl var olduğunu da anlıyor."
OpenAI, Sora'nın bazı etkileyici videolarını web sitesinde ve sosyal ağlarda yayınladı. Özellikle bu örnek videolar oldukça heyecan yarattı çünkü Sora'nın 60 saniyelik videolar yaratma yeteneği pek çok kişiyi hayrete düşürdü. Videolardan biri Tokyo'da yürüyen bir çifti gösteriyor ve etrafı uçuşan kiraz çiçeği yaprakları ve kar taneleriyle çevrili.
Karşınızda metinden videoya modelimiz Sora.
- OpenAI (@OpenAI) 15 Şubat 2024
Sora, son derece ayrıntılı sahneler, karmaşık kamera hareketleri ve canlı duygulara sahip birden fazla karakter içeren 60 saniyeye kadar videolar oluşturabilir. https://t.co/7j2JN27M3W
İstem: "Güzel, karlı... pic.twitter.com/ruTEWn87vf
Bir başka videoda, etkileyici, karla kaplı dağların fonunda karla kaplı bir arazide dolaşan gerçekçi mamutlar gösteriliyor.
İstem: "Birkaç dev yünlü mamut karlı bir çayırda ilerlerken yaklaşıyor, uzun yünlü kürkleri yürürken rüzgarda hafifçe dalgalanıyor, karla kaplı ağaçlar ve uzaktaki dramatik karla kaplı dağlar, öğleden sonra ışığı, hafif bulutlar ve uzakta yüksek bir güneş... pic.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) 15 Şubat 2024
Diğer önemli videolar şunlardır:
İstem: "Animasyon sahnesi, eriyen kırmızı bir mumun yanında diz çökmüş kısa tüylü bir canavarın yakın çekimini içeriyor. sanat tarzı, ışık ve dokuya odaklanarak 3 boyutlu ve gerçekçi. resmin ruh hali, canavar aleve merakla bakarken, merak ve meraktan biri... pic.twitter.com/aLMgJPI0y6
- OpenAI (@OpenAI) 15 Şubat 2024
Evet, etkileyici, ancak yine de iyileştirme için yer var
OpenAI, Sora'nın metin girdisinin hassas bir şekilde yorumlanmasını sağlayan "derin dil anlayışına" dayandığını vurguluyor. Diğer mevcut yapay zeka destekli görüntü ve video oluşturucular gibi Sora da kusursuz değil. Şirket, modelin şu anda nedensel ilişkileri tanımada hala zorlukları olduğunu kabul ediyor. Örneğin, bisküvi ısırık izleri göstermeden bisküvi yiyen birinin videosunu oluşturabilir. Sosyal ağlarda Sora'nın komutlardaki ayrıntıları gözden kaçırdığı ve karakterlerin hareket dizilerinde yalnızca uzmanlar tarafından fark edilen zaman zaman yanlışlıklar olduğu yönünde eleştiriler de var. Özellikle dikkat çeken bir kusur, videolardan birinde bir kadının başının etrafında beliren, onu arka plandan açıkça ayıran ve bazı sahnelerde çok belirgin olan beyaz, parlayan sınırdır. Sosyal medyada, özellikle yaratıcı sektörden insanlar endişelerini dile getiriyor: "İşimi kaybedeceğim" ve "Bu mesleğimize zarar veriyor".
Sora metinden video üreten ilk model olmasa da - benzer araçlar Meta, Google ve Runway tarafından da sunuluyor - diğer modellerde olduğu gibi videoları kare kare oluşturmak yerine bir seferde 60 saniyeye kadar oluşturabilmesiyle öne çıkıyor.
"Bu tür teknolojilerin seçimleri etkileyebileceğinden korkuyorum."
Metni videoya dönüştüren araçların geliştirilmesi, yapay zekanın yanlış bilgi yaratma potansiyeline ilişkin endişeleri artırdı. Washington Üniversitesi'nde yapay zeka profesörü ve siyasi medyada dezenformasyonla mücadeleye adanmış bir kuruluş olan True Media'nın kurucusu Oren Etzioni endişelerini dile getirdi: "Bu tür teknolojilerin seçimleri etkileyebilecek olması endişe verici." Bu gelişmeler aynı zamanda işleri ve telif hakları için endişelenen sanatçı ve yaratıcıların direnişine de yol açıyor.
OpenAI, kamuya açıklanmadan önce aracı yanlış bilgilendirme, nefret söylemi ve önyargı riski açısından incelemek üzere uzmanlarla birlikte çalışıyor. Şirket ayrıca Sora ile oluşturulan videoları tanımlayan ve daha kolay tanıma için bunlara meta veri ekleyen araçlar geliştiriyor. Sora'nın eğitiminin ayrıntıları şu anda açıklanmamış olsa da, hem kamu malı hem de lisanslı videoların telif hakkı sahipleri tarafından kullanıldığı da vurgulandı.