OpenAI, bahar güncelleme etkinliğinde ses, video ve metin üzerinde gerçek zamanlı mantık yürütebilen yeni bir yapay zeka modeli olan GPT-4o'yu tanıttı.
GPT-4o, doğal insan-makine etkileşiminde önemli bir ilerlemeye işaret ediyor. Bu model gerçek zamanlı diyalogları, video analizini, çevirileri ve çok daha fazlasını geliştiriyor. Böylece yapay zeka teknolojisinin geleceğine ilişkin beklentileri ve bazı korkuları da doğruluyor.
GPT-4o'nun yetenekleri ve bunların günlük yaşam üzerindeki etkileri şunlardır:
- Bellek performansı: Kullanıcılarla önceki konuşmalardan öğrenebilir.
- Gerçek zamanlı çeviri: Anında 50 farklı dile çeviriyi destekler.
- Matematik problemlerini çözme / özel ders verme: Matematiksel problemleri anlaşılır bir şekilde açıklar ve çözer.
- Dil becerileri: Sesli iletişim yoluyla gerçek bir kişiyle konuşuyormuş hissi yaratır. Farklı ses tonlarını tanır.
- Multimedya analizi: Görüntüleri ve metinleri analiz eder ve metin ile görsel veriler arasında bağlantılar kurar.
Bu yetenekler, GPT-4o'nun kullanıcılarla etkileşimde bulunma ve çeşitli görevleri yerine getirme konusundaki geniş uygulanabilirliğini göstermektedir. Model, deneyimlerinden sürekli öğrenme yoluyla geliştirilmektedir.
GPT-4o dün OpenAI tarafından YouTube'da canlı bir yayınla tanıtıldı. Bu yayında bu yeteneklerin gösterimini görebilirsiniz:
GPT-4o tüm ChatGPT kullanıcıları için ücretsiz olacakancak OpenAI bunun ne zaman mümkün olacağına dair henüz kesin bir tarih vermedi. CEO Sam Altman sadece "yeni ses modunun önümüzdeki haftalarda Plus kullanıcılarına sunulacağını" söyledi. Daha fazla ayrıntı bu makalenin sonundaki "Model kullanılabilirliği" bölümünde bulunabilir.
Ses, görüntü ve metin arasında gerçek zamanlı olarak mantık yürütebilen yeni amiral gemisi modelimiz GPT-4o'ya merhaba deyin: https://t.co/MYHZB79UqN
Metin ve görüntü girişi bugün API ve ChatGPT'de, ses ve video ise önümüzdeki haftalarda kullanıma sunuluyor. pic.twitter.com/uuthKZyzYx
- OpenAI (@OpenAI) 13 Mayıs 2024
GPT-4o'nun yeteneklerinin ardında hangi yenilikler var? Bir göz atalım tekni̇k detaylar OpenAI'dan...
GPT-4o, GPT-4'ün zeka seviyesindedir, ancak çok daha hızlıdır.
GPT-4o metin, ses ve videonun herhangi bir kombinasyonunu girdi olarak kabul eder ve metin, ses ve video çıktısının herhangi bir kombinasyonunu üretebilir. Ses girişine sadece 232 milisaniyede yanıt verir, bu da bir insan muhatabın yanıt süresine çok yakındır ve insana yakın bir diyalog deneyimi yaratır.
GPT-4o ile hızlı sayım pic.twitter.com/3KfVbaAM6c
- OpenAI (@OpenAI) 13 Mayıs 2024
GPT-4o'dan önce, ChatGPT'nin konuşma modunda ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikmeler vardı. GPT-4 ses tonunu, birden fazla konuşmacıyı veya arka plan gürültüsünü doğrudan tespit edemiyordu. Ayrıca, biri sesi metne dönüştürmek için, biri metin çıktısı için ve üçüncüsü tekrar sese dönüştürmek için olmak üzere üç ayrı modelden oluşan bir boru hattı kullandığı için kahkaha, şarkı söyleme veya duygusal ifadeleri yakalayamamıştır. Bu süreç bilgi kaybına neden oluyordu. GPT-4o ile metin, görüntü ve ses için uçtan uca tek bir model kullanılıyor. Bu da tüm girdi ve çıktıların aynı sinir ağı tarafından işlendiği anlamına geliyor. OpenAI, "GPT-4o tüm bu yöntemleri birleştiren ilk modelimiz olduğundan, yeteneklerini ve sınırlamalarını keşfetmenin henüz başındayız" diyor.
Yeni model, İngilizce ve kodlanmış metinler için GPT-4 Turbo'nun performansıyla eşleşiyor ve diğer dillerdeki metinler için açık bir avantaj sunuyor. Görüntüleri ve sesleri anlamada daha iyi, çok daha hızlı ve API'de yüzde 50 daha ucuz.
Model derecelendirmeleri
Geleneksel ölçütlere göre ölçülen GPT-4o, metin, muhakeme ve kodlama zekası alanlarında GPT-4 Turbo seviyesine ulaşıyor. Çok dillilik, ses ve video yeteneği alanlarında yeni standartlar belirliyor ve yapay zeka teknolojisini yeni bir seviyeye taşıyor.
Modelin güvenliği ve sınırlamaları
OpenAI kapsamlı güvenlik önlemlerini entegre etmiştir: "GPT-4o, eğitim verilerini filtreleme ve eğitimden sonra model davranışını iyileştirme gibi çeşitli yöntemlerle yerleşik güvenlik mekanizmalarına sahiptir. Ses çıkışlarında koruyucu bariyerler sağlamak için yeni sistemler geliştirdik. GPT-4o, Hazırlık Çerçevemize göre ve gönüllü taahhütlerimiz doğrultusunda değerlendirilmiştir. Siber güvenlik, KBRN, ikna edicilik ve model otonomisine ilişkin değerlendirmelerimiz GPT-4o'nun bu kategorilerin hiçbirinde orta riskten daha yüksek olmadığını göstermektedir. Değerlendirme, eğitim süreci boyunca otomatik ve insan değerlendirmelerini içeriyordu. Modelin yeteneklerini daha iyi anlamak için modelin hem güvenlik limiti öncesi hem de sonrası versiyonlarını test ettik. GPT-4o ayrıca yeni yöntemlerin getirdiği veya artırdığı riskleri belirlemek için sosyal psikoloji, önyargı, adalet ve yanlış bilgilendirme gibi alanlarda 70'in üzerinde uzmanla kapsamlı bir dış kırmızı ekip çalışmasına tabi tutuldu. Bu bulgular güvenlik önlemlerini iyileştirmek için kullanıldı."
Açıklama devam ediyor:
"GPT-4o'nun dil yöntemlerinin yeni riskler içerdiğinin farkına vardık. Bugün metin ve görüntü girişi ile metin çıktısını yayınlıyoruz. Önümüzdeki haftalarda ve aylarda teknik altyapı, eğitim sonrası kullanılabilirlik ve diğer yöntemlerin kullanıma sunulması için gereken güvenlik üzerinde çalışacağız. Örneğin, ses çıkışı başlangıçta önceden ayarlanmış seslerle sınırlı olacak ve mevcut güvenlik yönergelerimize uygun olacaktır. GPT-4o'nun tüm yöntemlerine ilişkin daha fazla ayrıntı önümüzdeki sistem panosunda duyurulacaktır. Testlerimizde, modelin tüm yöntemlerinde bazı sınırlamalar tespit ettik, bunlardan bazıları aşağıdaki videoda görülebilir. Modeli geliştirmeye devam edebilmemiz için GPT-4 Turbo'nun GPT-4o'dan daha iyi performans gösterdiği görevleri belirlememize yardımcı olacak geri bildirimleri memnuniyetle karşılıyoruz."
Modellerin kullanılabilirliği
"GPT-4o, derin öğrenmenin sınırlarını zorlamak ve onu pratik hale getirmek için attığımız son adım. Son iki yıldır yığının her seviyesinde verimliliği artırmak için çok çalışıyoruz. Bu araştırmanın ilk meyvesi, daha yaygın olarak kullanılabilen GPT-4 düzeyinde bir modeldir. GPT-4o'nun yetenekleri (bugünden itibaren genişletilmiş Red Team erişimiyle) yinelemeli olarak kullanıma sunuluyor."
"GPT-4o'nun metin ve görüntü özellikleri bugünden itibaren ChatGPT'de mevcut. GPT-4o'yu ücretsiz seviyede ve Plus kullanıcıları için 5 kata kadar daha yüksek mesaj limitleriyle kullanıma sunuyoruz. Önümüzdeki haftalarda, GPT-4o alfa ile ses modunun yeni bir sürümü ChatGPT Plus'ta tanıtılacak. Geliştiriciler artık GPT-4o'ya API'de bir metin ve görüntü modeli olarak da erişebilirler. GPT-4o, GPT-4 Turbo'dan 2 kat daha hızlı, yarı fiyatına ve 5 kat daha yüksek hız limitlerine sahip. GPT-4o'nun yeni ses ve video özelliklerini önümüzdeki haftalarda API'deki küçük bir grup güvenilir iş ortağına sunmayı planlıyoruz."