OpenAI yeni ses modelleriyle çıtayı yükseltti: Konuşurken farklı işler de yapabiliyor

OpenAI yeni ses modelleriyle çıtayı yükseltti: Konuşurken farklı işler de yapabiliyor


İlk etapta daha çok yazılı komutlar üzerinden çalışan ChatGPT, Gemini ve Claude üzere büyük lisan modelleri, yavaş yavaş kullanıcılarla gerçek vakitli olarak konuşabilen sistemlere dönüşüyor. Bilhassa son iki yılda gelişen “sesli AI” teknolojileri sayesinde yapay zekâlar sırf sesli komutları algılayan kolay asistanlar olmaktan çıkıp, konuşmayı anlayan, bağlamı takip eden, misyon gerçekleştirebilen ve kullanıcıyla doğal diyalog kurabilen sistemler hâline gelmeye başladı. OpenAI’ın bu hafta tanıttığı yeni jenerasyon ses modelleri de bu dönüşümün en dikkat cazibeli örneklerinden biri olarak öne çıkıyor.

OpenAI tarafından API üzerinden geliştiricilere sunulan GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper isimli üç yeni model, şirketin gerçek vakitli sesli yapay zekâ alanındaki en savlı adımı olarak görülüyor. Şirketin açıklamasına nazaran bu modeller, kullanıcıların araç kullanırken, havaalanında yol bulmaya çalışırken ya da müşteri hizmetleriyle görüşürken klavye kullanmadan yapay zekâyla doğal biçimde bağlantı kurabilmesini hedefliyor.

GPT-Realtime-2, Konuşma Sırasında Vazifeleri Yerine Getirebiliyor

Buradaki en dikkat alımlı modeli GPT-Realtime-2. Şirketin “GPT-5 düzeyinde akıl yürütme kabiliyetine sahip birinci ses modeli” olarak tanımladığı bu sistem, uzun ve karmaşık konuşmaları takip edebiliyor; kullanıcı konuşurken ortaya girilse bile diyaloğu doğal biçimde sürdürebiliyor. OpenAI’ın bilhassa vurguladığı noktalardan biri de modelin artık sadece konuşmakla kalmayıp konuşma sırasında etkin olarak misyon gerçekleştirebilmesi. Geliştiriciler bu modele takvim, arama motoru ya da şirket içi sistemler üzere araçlara erişim verebiliyor. Model de bu süreçleri gerçekleştirirken kullanıcıya “takviminizi denetim ediyorum” ya da “bunu artık araştırıyorum” üzere doğal geri bildirimler sunabiliyor.

Yeni modelin teknik tarafında da kıymetli geliştirmeler bulunuyor. OpenAI, sesli modelinin bağlam penceresini 32K’dan 128K’ya çıkardı. Bu da modelin çok daha uzun konuşmaları takip edebilmesini ve evvelki diyalogları unutmadan daha karmaşık vazifeleri yerine getirebilmesini sağlıyor. Bilhassa müşteri hizmetleri ya da uzun müddetli dayanak görüşmeleri üzere kullanım senaryolarında bu kapasite artışı epey değerli görülüyor. Şirket ayrıyeten modelin başarısız süreçlerden daha uygun toparlanabildiğini ve sıhhat kesimi üzere alanlarda kullanılan teknik terminolojileri daha yanlışsız anlayabildiğini söylüyor.

OpenAI tarafından paylaşılan performans testleri de yeni modelin sesli etkileşimlerde bariz bir gelişim sunduğunu gösteriyor. Şirketin datalarına nazaran GPT-Realtime-2, evvelki nesie kıyasla Big Bench Audio testlerinde yüzde 15,2 daha yüksek skor elde etti.

Gemini Live’e Rakip Olacak

OpenAI’ın yeni modelleri, şirketi Google’ın Gemini Live sistemiyle direkt rekabete sokuyor. Ancak iki şirketin yaklaşımı ortasında besbelli farklar bulunuyor. Google daha çok süratli reaksiyon mühleti ve geniş lisan takviyesine odaklanırken, OpenAI’ın doğal ve kesintisiz sohbet tecrübesini geliştirmeye tartı verdiği görülüyor.

Tanıtılan ikinci model olan GPT-Realtime-Translate ise gerçek vakitli çeviri tarafına odaklanıyor. OpenAI’ın açıklamasına nazaran bu model 70’ten fazla giriş lisanını destekliyor ve bunları eş vakitli olarak 13 farklı lisana çevirebiliyor. Üstelik bunu yaparken konuşmacının temposunu koruyabiliyor. Şirket bu sistemi bilhassa müşteri hizmetleri, seyahat uygulamaları ve çok lisanlı bağlantı platformları için konumlandırıyor.

OpenAI, bu teknolojiyi kullanmaya başlayan şirketlerden kimi örnekler de paylaştı. Bunlardan biri olan Deutsche Telekom, müşterilerin kendi lisanlarında konuşabildiği ve yapay zekânın görüşmeyi anlık olarak çevirdiği sesli takviye sistemleri geliştiriyor. Bu usul sistemlerin bilhassa memleketler arası müşteri hizmetlerinde insan mütercim muhtaçlığını azaltabileceği düşünülüyor.

Duyurulan üçüncü model olan GPT-Realtime-Whisper ise canlı transkripsiyon üzerine ağırlaşıyor. Bu model, kullanıcı konuşurken sesi eş vakitli olarak yazıya dönüştürebiliyor. Bilhassa toplantı notları, davet merkezleri, canlı yayın altyazıları ya da sesli kayıt tahlilleri üzere alanlarda kullanılabilecek bu teknoloji, OpenAI’ın uzun müddettir geliştirdiği Whisper altyapısının yeni kuşak versiyonu olarak bedellendiriliyor.

Şirketin açıklamasına nazaran uzun vadeli gaye; dinleyebilen, düşünebilen, çevirebilen, yazıya dökebilen ve birebir anda aksiyon alabilen tam teşekküllü yapay zekâ casusları oluşturmak. OpenAI’ın yeni ses modelleri de, yapay zekânın bu yeni evrimine hakikat atılmış kıymetli bir adım olarak görülüyor.

Kaynak : Donanimhaber

Etiketler: , , , ,

Yazar Profil Fotoğrafı

Serhat ÖZTÜRK

MotorcularMekani.Com İle Sohbete Katıl Sohbetin en sıcak, dostluğun en gerçek hali MotorcularMekani.Com’da seni bekliyor. Sen de hemen katıl, online sohbet sitesi deneyimini özgürce yaşa ve muhabbetin keyfini çıkar!

İlk yorum yazan siz olun.

Cevap bırakın
Gerekli alanlar işaretlenmiştir. *