Das innovative Sora-Modell von OpenAI ermöglicht die Erstellung einminütiger Videos aus Text.
Erst gestern enthüllte OpenAI sein neuestes Modell namens Sora, das die Fähigkeit besitzt, auf Basis von Textanweisungen hochauflösende Videos von bis zu einer Minute Länge zu generieren. Sora, was im Japanischen «Himmel» bedeutet, wird in absehbarer Zeit nicht für die breite Öffentlichkeit zugänglich sein. Derzeit wird das Tool einer ausgewählten Gruppe von Wissenschaftlern und Forschern zur Verfügung gestellt, um das Risiko von Missbrauch und Schäden zu evaluieren.
Auf der Webseite von OpenAI werden Einzelheiten zu dieser bahnbrechenden Entwicklung geteilt, die weitreichendes Interesse geweckt hat: «Sora ist in der Lage, komplexe Szenarien mit mehreren Figuren, spezifischen Gesten und detaillierten Beschreibungen von Objekten und Hintergründen zu erschaffen. Das Modell begreift nicht nur den Wunsch des Nutzers aus der Eingabeaufforderung, sondern auch, wie diese Elemente in der realen Welt existieren.»
OpenAI hat einige beeindruckende Videos von Sora auf seiner Webseite und in sozialen Netzwerken veröffentlicht. Insbesondere diese Beispielvideos sorgten für großes Aufsehen, da Soras Fähigkeit, 60-Sekunden-Videos zu erstellen, viele verblüffte. In einem der Videos wird ein Paar gezeigt, das durch Tokio spaziert, umgeben von wehenden Kirschblütenblättern und Schneeflocken.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Ein weiteres Video zeigt lebensechte Mammuts, die durch eine schneebedeckte Landschaft vor dem Hintergrund eindrucksvoller, verschneiter Berge wandern.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Weitere bemerkenswerte Videos schließen ein:
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
Ja, beeindruckend, aber noch ausbaufähig
OpenAI betont, dass Sora auf einem «tiefen Sprachverständnis» basiert, das eine präzise Interpretation der Texteingaben ermöglicht. Wie andere aktuelle KI-gestützte Bild- und Videogeneratoren ist auch Sora nicht fehlerfrei. Das Unternehmen räumt ein, dass das Modell gegenwärtig noch Schwierigkeiten hat, Kausalzusammenhänge zu erfassen. So könnte es beispielsweise ein Video von jemandem erzeugen, der einen Keks isst, ohne dass der Keks Bissspuren aufweist. Auf sozialen Netzwerken wurde zudem kritisiert, dass Sora Details in den Eingabeaufforderungen übersieht und gelegentlich Ungenauigkeiten in den Bewegungsabläufen der Charaktere auftreten, die nur von Fachleuten wahrgenommen werden. Ein besonders auffälliger Fehler ist der weiße, leuchtende Rand, der in einem der Videos um den Kopf einer Frau erscheint, was sie deutlich vom Hintergrund abhebt und in einigen Szenen stark ins Auge fällt. In sozialen Medien äußern sich insbesondere Personen aus der Kreativbranche besorgt: «Ich werde meinen Job verlieren» und «Das schadet unserer Profession».
Obwohl Sora nicht das erste Modell ist, das Videos aus Text generiert – ähnliche Tools bieten auch Meta, Google und Runway an –, sticht es durch die Fähigkeit hervor, Videos bis zu 60 Sekunden am Stück zu erstellen, anstatt sie Bild für Bild zusammenzusetzen, wie es bei anderen Modellen der Fall ist.
«Ich befürchte, solche Technologien könnten Wahlen beeinflussen.»
Die Entwicklung von Tools zur Umwandlung von Text in Videos hat Bedenken hinsichtlich des Potenzials künstlicher Intelligenz zur Erstellung von Falschinformationen aufgeworfen. Oren Etzioni, Professor für künstliche Intelligenz an der University of Washington und Gründer von True Media, einer Organisation zur Bekämpfung von Desinformation in politischen Medien, äußerte sich besorgt: «Es ist alarmierend, dass solche Technologien Wahlen beeinflussen könnten.» Diese Fortschritte führen auch zu Widerstand von Künstlern und Kreativen, die um ihre Arbeitsplätze und das Urheberrecht fürchten.
OpenAI arbeitet mit Experten zusammen, um das Tool auf das Risiko von Fehlinformationen, Hassrede und Voreingenommenheit zu prüfen, bevor es der Öffentlichkeit zugänglich gemacht wird. Das Unternehmen entwickelt zudem Instrumente, die Videos, die mit Sora erstellt wurden, identifizieren und diesen Metadaten hinzufügen, um eine leichtere Erkennung zu ermöglichen. Es wurde auch betont, dass sowohl gemeinfreie als auch lizenzierte Videos von Urheberrechtsinhabern verwendet werden, obwohl aktuell keine Details zur Schulung von Sora preisgegeben werden.