Contattateci
Earhartstrasse 17, 8152 Glattpark
hello(at)likeartdesign.com
Cellulare: +41 76 577 32 59
Richieste di lavoro
hello(at)likeartdesign.com
Cellulare: +41 76 577 32 59
Indietro

Le funzionalità del GPT-4o che simulano conversazioni reali

In occasione del suo evento di aggiornamento primaverile, OpenAI ha presentato GPT-4o, un nuovo modello di intelligenza artificiale in grado di eseguire logiche in tempo reale su audio, video e testo.


GPT-4o segna un significativo progresso nell'interazione naturale uomo-macchina. Questo modello migliora i dialoghi in tempo reale, l'analisi dei video, le traduzioni e molto altro ancora. Conferma quindi le aspettative e anche alcuni timori sul futuro della tecnologia AI.

Le capacità del GPT-4o e il loro impatto sulla vita quotidiana comprendono:

  1. Prestazioni della memoria: Può imparare dalle conversazioni precedenti con gli utenti.
  2. Traduzione in tempo reale: Supporta traduzioni istantanee in 50 lingue diverse.
  3. Risolvere problemi di matematica / tutoraggio: Spiega i problemi matematici in modo comprensibile e li risolve.
  4. Competenze linguistiche: Crea la sensazione di parlare con una persona reale attraverso la comunicazione vocale. Riconosce i diversi toni di voce.
  5. Analisi multimediale: Analizza immagini e testi e stabilisce collegamenti tra testo e dati visivi.

Queste capacità dimostrano l'ampia applicabilità del GPT-4o nell'interazione con gli utenti e nell'esecuzione di vari compiti. Il modello viene migliorato grazie all'apprendimento continuo delle sue esperienze.
GPT-4o è stato presentato ieri da OpenAI in un live stream su YouTube. In questa trasmissione è possibile vedere la dimostrazione di queste capacità:



GPT-4o sarà gratuito per tutti gli utenti di ChatGPT
ma OpenAI non ha ancora fornito una data esatta in cui ciò sarà possibile. Il CEO Sam Altman si è limitato a dire che "la nuova modalità audio sarà disponibile per gli utenti Plus nelle prossime settimane". Ulteriori dettagli sono disponibili nella sezione "Disponibilità del modello" alla fine di questo articolo.


Quali innovazioni si celano dietro le capacità del GPT-4o? Diamo un'occhiata al dettagli tecnici da OpenAI...

La GPT-4o è al livello di intelligenza della GPT-4, ma molto più veloce.


GPT-4o accetta in ingresso qualsiasi combinazione di testo, audio e video e può generare qualsiasi combinazione di testo, audio e video in uscita. Risponde all'input vocale in soli 232 millisecondi, un tempo molto vicino a quello di un interlocutore umano, creando un'esperienza di dialogo quasi umana.


Prima del GPT-4o, la modalità vocale di ChatGPT aveva ritardi medi di 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4). Il GPT-4 non era in grado di rilevare direttamente il tono di voce, gli altoparlanti multipli o il rumore di fondo. Inoltre, non era in grado di catturare risate, canti o espressioni emotive, poiché utilizzava una pipeline di tre modelli separati: uno per la conversione del suono in testo, uno per l'output del testo e un terzo per la conversione del suono. Questo processo comportava una perdita di informazioni. Con GPT-4o, viene utilizzato un unico modello end-to-end per testo, immagine e suono. Ciò significa che tutti gli input e gli output vengono elaborati dalla stessa rete neurale. "Poiché GPT-4o è il nostro primo modello che combina tutti questi metodi, siamo solo all'inizio dell'esplorazione delle sue capacità e dei suoi limiti", afferma OpenAI.

Il nuovo modello eguaglia le prestazioni del GPT-4 Turbo per l'inglese e i testi codificati e offre un chiaro vantaggio per i testi in altre lingue. È in grado di comprendere meglio le immagini e i suoni, è molto più veloce e costa il 50% in meno di API.

Valutazioni del modello


Misurato rispetto ai benchmark convenzionali, GPT-4o raggiunge il livello di GPT-4 Turbo nelle aree dell'intelligenza testuale, del ragionamento e della codifica. Stabilisce nuovi standard nelle aree del multilinguismo, della capacità linguistica e video e porta la tecnologia AI a un nuovo livello.

Sicurezza e limiti del modello


OpenAI ha integrato ampie misure di sicurezza: "GPT-4o ha incorporato meccanismi di sicurezza attraverso vari metodi, come il filtraggio dei dati di addestramento e il miglioramento del comportamento del modello dopo l'addestramento. Abbiamo sviluppato nuovi sistemi per fornire barriere protettive alle uscite sonore. Il GPT-4o è stato valutato in base al nostro Readiness Framework e in linea con i nostri impegni volontari. Le nostre valutazioni su cybersicurezza, CBRN, persuasività e autonomia del modello mostrano che il GPT-4o non supera il rischio medio in nessuna di queste categorie. La valutazione ha incluso giudizi automatizzati e umani durante l'intero processo di formazione. Abbiamo testato le versioni del modello prima e dopo il limite di sicurezza per comprendere meglio le capacità del modello. Il GPT-4o è stato inoltre sottoposto a un ampio studio esterno con oltre 70 esperti in campi quali la psicologia sociale, i pregiudizi, l'equità e la disinformazione per identificare i rischi introdotti o amplificati dai nuovi metodi. Questi risultati sono stati utilizzati per migliorare le misure di sicurezza".
La spiegazione continua:

"Abbiamo riconosciuto che i metodi linguistici del GPT-4o comportano nuovi rischi. Oggi rilasciamo l'input e l'output di testo e immagini. Nelle prossime settimane e mesi lavoreremo sull'infrastruttura tecnica, sulla disponibilità dopo la formazione e sulla sicurezza necessarie per l'introduzione di altri metodi. Ad esempio, l'output audio sarà inizialmente limitato a suoni preimpostati e sarà conforme alle nostre attuali linee guida sulla sicurezza. Maggiori dettagli su tutti i metodi del GPT-4o saranno annunciati nella prossima scheda di sistema. Nei nostri test abbiamo riscontrato alcune limitazioni in tutti i metodi del modello, alcune delle quali sono visibili nel video qui sotto. Siamo lieti di ricevere feedback che ci aiutino a identificare i compiti in cui GPT-4 Turbo si comporta meglio di GPT-4o, in modo da poter continuare a migliorare il modello".

Disponibilità dei modelli


"GPT-4o è il nostro ultimo passo per spingere i confini del deep learning e renderlo pratico. Negli ultimi due anni abbiamo lavorato duramente per migliorare l'efficienza a ogni livello dello stack. Il primo frutto di questa ricerca è un modello di livello GPT-4 più ampiamente disponibile. Le funzionalità di GPT-4o sono in fase di roll-out iterativo (con un accesso esteso al Red Team a partire da oggi)".
"Le funzioni di testo e immagini di GPT-4o sono disponibili su ChatGPT a partire da oggi. Stiamo rendendo disponibile GPT-4o a livello gratuito e per gli utenti Plus con limiti di messaggi fino a 5 volte superiori. Nelle prossime settimane, una nuova versione della modalità vocale con GPT-4o alpha sarà introdotta in ChatGPT Plus. Gli sviluppatori possono ora accedere a GPT-4o anche come modello di testo e immagine nell'API. GPT-4o è due volte più veloce di GPT-4 Turbo, costa la metà e ha limiti di velocità cinque volte superiori. Nelle prossime settimane prevediamo di distribuire le nuove funzionalità audio e video di GPT-4o a un piccolo gruppo di partner fidati nell'API".

Likeartdesign
Likeartdesign
https://www.likeartdesign.ch

Commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito web memorizza i cookie sul vostro computer. Informativa sui cookie