Auf seinem Frühjahrs-Update-Event stellte OpenAI GPT-4o vor, ein neues KI-Modell, das Echtzeit-Logik über Audio, Video und Text ausführen kann.
GPT-4o markiert einen bedeutenden Fortschritt in der natürlichen Interaktion zwischen Mensch und Maschine. Dieses Modell verbessert Echtzeit-Dialoge, Videoanalyse, Übersetzungen und vieles mehr. Es bestätigt damit die Erwartungen und auch einige Befürchtungen hinsichtlich der Zukunft der KI-Technologie.
Die Fähigkeiten von GPT-4o und deren Auswirkungen auf den Alltag umfassen:
- Gedächtnisleistung: Kann aus früheren Gesprächen mit Nutzern lernen.
- Echtzeit-Übersetzung: Unterstützt sofortige Übersetzungen in 50 verschiedene Sprachen.
- Matheprobleme lösen / Nachhilfe: Erklärt mathematische Probleme verständlich und löst sie.
- Sprachfähigkeiten: Schafft durch Sprachkommunikation das Gefühl, mit einer echten Person zu sprechen. Erkennt verschiedene Stimmlagen.
- Multimedia-Analyse: Analysiert Bild und Text und stellt Zusammenhänge zwischen Text- und visuellen Daten her.
Diese Fähigkeiten zeigen die breite Anwendbarkeit von GPT-4o bei der Interaktion mit Nutzern und der Durchführung verschiedener Aufgaben. Das Modell wird durch kontinuierliches Lernen aus seinen Erfahrungen verbessert.
GPT-4o wurde gestern von OpenAI in einem Live-Stream auf YouTube vorgestellt. In dieser Übertragung können Sie die Demonstration dieser Fähigkeiten sehen:
GPT-4o wird für alle ChatGPT-Nutzer kostenlos sein, aber OpenAI hat noch keinen genauen Zeitpunkt genannt, wann dies möglich sein wird. CEO Sam Altman sagte lediglich, dass „der neue Soundmodus in den kommenden Wochen für Plus-Nutzer verfügbar sein wird“. Weitere Details finden Sie im Abschnitt „Modellverfügbarkeit“ am Ende dieses Artikels.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Welche Innovationen stecken hinter den Fähigkeiten von GPT-4o? Werfen wir einen Blick auf die technischen Details von OpenAI…
GPT-4o ist auf dem Intelligenzniveau von GPT-4, aber viel schneller.
GPT-4o akzeptiert jede Kombination von Text, Audio und Video als Eingabe und kann jede Kombination von Text-, Audio- und Videoausgabe erzeugen. Es reagiert auf Spracheingaben in nur 232 Millisekunden, was der Reaktionszeit eines menschlichen Gesprächspartners sehr nahe kommt und ein nahezu menschliches Dialogerlebnis schafft.
Fast counting with GPT-4o pic.twitter.com/3KfVbaAM6c
— OpenAI (@OpenAI) May 13, 2024
Vor GPT-4o gab es beim Sprachmodus von ChatGPT durchschnittliche Verzögerungen von 2,8 Sekunden (GPT-3.5) und 5,4 Sekunden (GPT-4). GPT-4 konnte den Tonfall, mehrere Sprecher oder Hintergrundgeräusche nicht direkt erfassen. Auch Lachen, Singen oder emotionale Ausdrücke waren nicht möglich, da es eine Pipeline von drei separaten Modellen verwendete: eines für die Umwandlung von Ton in Text, eines für die Textausgabe und ein drittes für die Rückumwandlung in Ton. Dieser Prozess führte zu Informationsverlusten. Mit GPT-4o wird ein einziges End-to-End-Modell für Text, Bild und Ton verwendet. Dadurch werden alle Eingaben und Ausgaben vom selben neuronalen Netz verarbeitet. „Da GPT-4o unser erstes Modell ist, das all diese Methoden kombiniert, sind wir erst am Anfang der Erforschung seiner Fähigkeiten und Grenzen“, so OpenAI.
Das neue Modell entspricht der Leistung von GPT-4 Turbo für englische und kodierte Texte und bietet einen deutlichen Vorteil für Texte in anderen Sprachen. Es ist besser im Verstehen von Bildern und Tönen, zudem viel schneller und 50 Prozent günstiger in der API.
Modell-Bewertungen
Gemessen an herkömmlichen Benchmarks erreicht GPT-4o in den Bereichen Text-, Argumentations- und Codierungsintelligenz das Niveau von GPT-4 Turbo. Es setzt neue Maßstäbe in den Bereichen Mehrsprachigkeit, Sprach- und Videofähigkeit und hebt die KI-Technologie auf ein neues Niveau.
Sicherheit und Grenzen des Modells
OpenAI hat umfangreiche Sicherheitsmaßnahmen integriert: „GPT-4o verfügt über eingebaute Sicherheitsmechanismen durch verschiedene Methoden wie das Filtern von Trainingsdaten und die Verbesserung des Modellverhaltens nach dem Training. Wir haben neue Systeme entwickelt, um Schutzbarrieren an den Tonausgängen bereitzustellen. GPT-4o wurde anhand unseres Readiness Frameworks und in Übereinstimmung mit unseren freiwilligen Verpflichtungen bewertet. Unsere Bewertungen zu Cybersicherheit, CBRN, Überzeugungskraft und Modellautonomie zeigen, dass GPT-4o in keiner dieser Kategorien ein höheres Risiko als mittel aufweist. Die Bewertung umfasste automatische und menschliche Beurteilungen während des gesamten Schulungsprozesses. Wir haben sowohl die Versionen des Modells vor als auch nach der Sicherheitsbegrenzung getestet, um die Fähigkeiten des Modells besser zu verstehen. GPT-4o wurde außerdem einer umfassenden externen Red-Team-Studie mit über 70 Experten aus Bereichen wie Sozialpsychologie, Voreingenommenheit, Fairness und Fehlinformation unterzogen, um Risiken zu ermitteln, die durch die neuen Methoden eingeführt oder verstärkt wurden. Diese Erkenntnisse wurden genutzt, um die Sicherheitsmaßnahmen zu verbessern.“
Die Erklärung fährt fort:
„Wir haben erkannt, dass die Sprachmethoden von GPT-4o neue Risiken mit sich bringen. Heute geben wir Text- und Bildeingaben sowie Textausgaben frei. In den kommenden Wochen und Monaten werden wir an der technischen Infrastruktur, Verfügbarkeit nach dem Training und Sicherheit arbeiten, die für die Einführung weiterer Methoden erforderlich sind. Beispielsweise werden die Audioausgaben zu Beginn auf voreingestellte Klänge beschränkt sein und unseren aktuellen Sicherheitsrichtlinien entsprechen. Weitere Details zu allen Methoden des GPT-4o werden auf dem kommenden Systemboard bekannt gegeben. Bei unseren Tests haben wir einige Einschränkungen bei allen Methoden des Modells festgestellt, von denen einige im folgenden Video zu sehen sind. Wir freuen uns über Rückmeldungen, die uns helfen, Aufgaben zu identifizieren, bei denen GPT-4 Turbo besser abschneidet als GPT-4o, damit wir das Modell weiter verbessern können.“
Verfügbarkeit der Modelle
„GPT-4o ist unser neuester Schritt, um die Grenzen des Deep Learning zu erweitern und praktisch nutzbar zu machen. Wir haben in den letzten zwei Jahren intensiv daran gearbeitet, die Effizienz auf jeder Ebene des Stacks zu verbessern. Die erste Frucht dieser Forschung ist ein Modell auf GPT-4-Niveau, das breiter verfügbar ist. Die Fähigkeiten von GPT-4o werden iterativ eingeführt (mit erweitertem Red-Team-Zugang ab heute).“
„Die Text- und Bildfunktionen von GPT-4o sind ab heute auf ChatGPT verfügbar. Wir stellen GPT-4o auf der kostenlosen Ebene und für Plus-Nutzer mit bis zu 5x höheren Nachrichtenlimits bereit. In den kommenden Wochen wird eine neue Version des Sprachmodus mit GPT-4o alpha in ChatGPT Plus eingeführt. Entwickler können nun auch auf GPT-4o als Text- und Bildmodell in der API zugreifen. GPT-4o ist 2x schneller als GPT-4 Turbo, halb so teuer und hat 5x höhere Geschwindigkeitslimits. Wir planen, die neuen Audio- und Videofunktionen von GPT-4o in den kommenden Wochen für eine kleine Gruppe vertrauenswürdiger Partner in der API einzuführen.“