Prendre contact
Earhartstrasse 17, 8152 Glattpark
hello(at)likeartdesign.ch
Mobile : +41 76 577 32 59
Demandes de travail
hello(at)likeartdesign.ch
Mobile : +41 76 577 32 59
Retour

Les capacités de GPT-4o à simuler de vraies conversations

Lors de son événement de mise à jour de printemps, OpenAI a présenté GPT-4o, un nouveau modèle d'IA capable d'exécuter une logique en temps réel sur l'audio, la vidéo et le texte.


GPT-4o marque un progrès important dans l'interaction naturelle entre l'homme et la machine. Ce modèle améliore les dialogues en temps réel, l'analyse vidéo, la traduction et bien plus encore. Il confirme ainsi les attentes et aussi certaines craintes concernant l'avenir de la technologie de l'IA.

Les capacités de GPT-4o et leur impact sur la vie quotidienne comprennent

  1. capacité de mémoire : Peut tirer des enseignements des conversations antérieures avec les utilisateurs.
  2. Traduction en temps réel : Prend en charge les traductions instantanées dans 50 langues différentes.
  3. Résoudre des problèmes de mathématiques / soutien scolaire : Explique les problèmes mathématiques de manière compréhensible et les résout.
  4. compétences linguistiques : Crée le sentiment de parler à une personne réelle grâce à la communication vocale. Reconnaît différents types de voix.
  5. Analyse du multimédia : Analyse l'image et le texte et établit des liens entre les données textuelles et visuelles.

Ces capacités montrent la large applicabilité de GPT-4o dans l'interaction avec les utilisateurs et la réalisation de différentes tâches. Le modèle est amélioré par un apprentissage continu à partir de ses expériences.
GPT-4o a été présenté hier par OpenAI lors d'une diffusion en direct sur YouTube. Dans cette diffusion, vous pouvez voir la démonstration de ces capacités :



GPT-4o sera gratuit pour tous les utilisateurs de ChatGPT
Mais OpenAI n'a pas encore indiqué la date exacte à laquelle cela sera possible. Le PDG Sam Altman a simplement déclaré que "le nouveau mode sonore sera disponible pour les utilisateurs Plus dans les semaines à venir". Pour plus de détails, voir la section "Disponibilité des modèles" à la fin de cet article.


Quelles innovations se cachent derrière les capacités du GPT-4o ? Jetons un coup d'œil sur les détails techniques d'OpenAI...

GPT-4o est au même niveau d'intelligence que GPT-4, mais beaucoup plus rapide.


GPT-4o accepte toute combinaison de texte, d'audio et de vidéo en entrée et peut produire toute combinaison de texte, d'audio et de vidéo en sortie. Il réagit aux entrées vocales en seulement 232 millisecondes, ce qui est très proche du temps de réaction d'un interlocuteur humain et crée une expérience de dialogue presque humaine.


Avant GPT-4o, le mode vocal de ChatGPT présentait des retards moyens de 2,8 secondes (GPT-3.5) et de 5,4 secondes (GPT-4). GPT-4 ne pouvait pas saisir directement l'intonation, plusieurs locuteurs ou les bruits de fond. Il ne permettait pas non plus de rire, de chanter ou d'exprimer des émotions, car il utilisait un pipeline de trois modèles distincts : un pour la conversion du son en texte, un pour la sortie du texte et un troisième pour la reconversion en son. Ce processus entraînait une perte d'informations. Avec GPT-4o, un seul modèle de bout en bout est utilisé pour le texte, l'image et le son. Ainsi, toutes les entrées et sorties sont traitées par le même réseau neuronal. "Comme GPT-4o est notre premier modèle combinant toutes ces méthodes, nous n'en sommes qu'au début de l'exploration de ses capacités et de ses limites", explique OpenAI.

Le nouveau modèle correspond aux performances de GPT-4 Turbo pour les textes en anglais et codés, et offre un net avantage pour les textes dans d'autres langues. Il est meilleur pour la compréhension des images et des sons, en outre beaucoup plus rapide et 50 % moins cher dans l'API.

Évaluations des modèles


Par rapport aux benchmarks traditionnels, GPT-4o atteint le niveau de GPT-4 Turbo dans les domaines de l'intelligence textuelle, de l'intelligence de raisonnement et de l'intelligence de codage. Il établit de nouvelles normes dans les domaines du multilinguisme, des capacités vocales et vidéo et élève la technologie de l'IA à un niveau supérieur.

Sécurité et limites du modèle


OpenAI a intégré des mesures de sécurité étendues : "GPT-4o dispose de mécanismes de sécurité intégrés grâce à différentes méthodes comme le filtrage des données d'entraînement et l'amélioration du comportement du modèle après l'entraînement. Nous avons développé de nouveaux systèmes pour fournir des barrières de protection sur les sorties sonores. GPT-4o a été évalué sur la base de notre cadre de préparation et conformément à nos engagements volontaires. Nos évaluations de la cybersécurité, du NRBC, de la persuasion et de l'autonomie des modèles montrent que GPT-4o ne présente pas de risque supérieur à moyen dans aucune de ces catégories. L'évaluation comprenait des évaluations automatiques et humaines tout au long du processus de formation. Nous avons testé à la fois les versions du modèle avant et après la limitation de sécurité afin de mieux comprendre les capacités du modèle. GPT-4o a également fait l'objet d'une étude externe approfondie de la part de l'équipe rouge, avec plus de 70 experts dans des domaines tels que la psychologie sociale, les préjugés, l'équité et la désinformation, afin d'identifier les risques introduits ou renforcés par les nouvelles méthodes. Ces connaissances ont été utilisées pour améliorer les mesures de sécurité".
La déclaration continue :

"Nous avons réalisé que les méthodes linguistiques de GPT-4o présentaient de nouveaux risques. Aujourd'hui, nous validons des entrées de texte et d'image ainsi que des sorties de texte. Dans les semaines et les mois à venir, nous travaillerons sur l'infrastructure technique, la disponibilité après la formation et la sécurité, qui sont nécessaires pour introduire d'autres méthodes. Par exemple, les sorties audio seront initialement limitées à des sons prédéfinis et conformes à notre politique de sécurité actuelle. De plus amples détails sur toutes les méthodes du GPT-4o seront communiqués sur la prochaine carte système. Lors de nos tests, nous avons constaté quelques restrictions sur toutes les méthodes du modèle, dont certaines sont présentées dans la vidéo ci-dessous. Nous serions heureux de recevoir des commentaires qui nous aideraient à identifier les tâches pour lesquelles le GPT-4 Turbo est plus performant que le GPT-4o, afin que nous puissions continuer à améliorer le modèle".

Disponibilité des modèles


"GPT-4o est notre dernière étape pour repousser les limites du deep learning et le rendre utilisable dans la pratique. Au cours des deux dernières années, nous avons travaillé intensivement pour améliorer l'efficacité à chaque niveau de la pile. Le premier fruit de ces recherches est un modèle de niveau GPT-4 qui est plus largement disponible. Les capacités de GPT-4o seront introduites de manière itérative (avec un accès élargi de Red Team dès aujourd'hui)".
"Les fonctions de texte et d'image de GPT-4o sont disponibles dès aujourd'hui sur ChatGPT. Nous mettons GPT-4o à disposition au niveau gratuit et pour les utilisateurs Plus avec des limites de messages jusqu'à 5 fois plus élevées. Dans les semaines à venir, une nouvelle version du mode vocal avec GPT-4o alpha sera introduite dans ChatGPT Plus. Les développeurs peuvent désormais accéder à GPT-4o en tant que modèle de texte et d'image dans l'API. GPT-4o est 2x plus rapide que GPT-4 Turbo, deux fois moins cher et a des limites de vitesse 5x plus élevées. Nous prévoyons de déployer les nouvelles fonctionnalités audio et vidéo de GPT-4o dans l'API dans les semaines à venir pour un petit groupe de partenaires de confiance".

Likeartdesign
Likeartdesign
https://www.likeartdesign.ch

Laisser une réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués par *

Ce site web stocke des cookies sur votre ordinateur. Politique en matière de cookies