Nvidia’dan gerçek vakitli, çift taraflı konuşma için yeni yapay zeka: PersonaPlex

Nvidia’dan gerçek vakitli, çift taraflı konuşma için yeni yapay zeka: PersonaPlex

Nvidia araştırmacıları doğal, kesintisiz ve gerçek vakitli sesli etkileşimleri hedefleyen yeni konuşma modeli PersonaPlex-7B-v1’i duyurdu. Tam çift yönlü yapıda geliştirilen bu model, konuşma sırasında hem dinleyip hem de konuşabilme yeteneğiyle klasik sesli asistan mimarilerinden ayrılıyor. PersonaPlex, bilhassa doğal diyalog akışı, hassas persona denetimi ve düşük gecikme gerektiren kullanım senaryolarında öne çıkıyor.

Her şey tek modelde

Geleneksel sesli asistanlar konuşmayı metne çeviren ASR, cevabı üreten lisan modeli ve sesi tekrar üreten TTS bileşenlerinden oluşan çok evreli bir yapı kullanıyor. Bu yaklaşım her evrede gecikmeye yol açarken tıpkı anda konuşma, kelam kesme yahut doğal geri bildirimler üzere insan konuşmasının temel özelliklerini desteklemekte yetersiz kalıyor.

PersonaPlex, bu çok katmanlı zinciri ortadan kaldırarak tek bir Transformer modeli içinde hem konuşmayı anlamayı hem de konuşma üretimini eş vakitli olarak gerçekleştiriyor. Model, sinirsel bir codec ile kodlanmış daima ses akışı üzerinde çalışıyor ve metin ile ses token’larını birebir anda otoregresif biçimde üretiyor. Kullanıcının sesi anlık olarak işlenirken model, kendi konuşmasını da eş vakitli sürdürebiliyor. Bu sayede kelam kesme, üst üste konuşma ve bağlama uygun geri bildirimler mümkün hale geliyor.

PersonaPlex, biri kullanıcı sesini, oburu ise casus konuşmasını ve metni izleyen iki paralel akıştan oluşan bir yapı kullanıyor. Her iki akış tıpkı model durumunu paylaştığı için sistem, konuşurken dinlemeye devam edebiliyor ve kullanıcı ortaya girdiğinde karşılığını anında uyarlayabiliyor.

7 milyar parametreden oluşuyor

PersonaPlex-7B-v1, toplam 7 milyar parametreye sahip ve Moshi ağ mimarisini temel alıyor. Model, hem giriş hem de çıkış tarafında 24 kHz se işleyebiliyor. Lisan modeli altyapısında Nvidia’nın Helium modeli yer alıyor. Helium, modelin yalnızca eğitim senaryolarıyla sonlu kalmayıp, yeni ve beklenmedik durumlarda da anlamsal tutarlılık göstermesini sağlıyor.

Bununla birlikte PersonaPlex’in eğitimi tek evrede gerçekleştirildi ve gerçek konuşmalar ile sentetik diyalogların istikrarlı bir karışımına dayanıyor. Gerçek datalar, Fisher English Corpus’tan alınan 7.303 telefon görüşmesi, yani yaklaşık 1.217 saatlik konuşmadan oluşuyor. Bu konuşmalar GPT-OSS-120B kullanılarak persona ve bağlam yönlendirmeleriyle geriye dönük biçimde etiketlendi. Bu bilgi seti, doğal duraksamalar, dolgu sesleri, duygusal yansılar ve geri bildirimler üzere TTS ile üretmesi sıkıntı olan ögeleri modele kazandırıyor. Sentetik tarafta ise 39.322 asistan diyaloğu (yaklaşık 410 saat) ve 105.410 müşteri hizmetleri diyaloğu (yaklaşık 1.840 saat) yer alıyor. Metinler Qwen3-32B ve GPT-OSS-120B tarafından üretildi, seslendirme ise Chatterbox TTS ile yapıldı. PersonaPlex-7B-v1, MIT lisansı altında kod, Nvidia Open Model License kapsamında ise model yükleriyle yayımlanmış durumda. Kaynakça kısmından ulaşabilirsiniz.

Kaynak : Donanimhaber

Yazar Profil Fotoğrafı

Serhat ÖZTÜRK

MotorcularMekani.Com İle Sohbete Katıl Sohbetin en sıcak, dostluğun en gerçek hali MotorcularMekani.Com’da seni bekliyor. Sen de hemen katıl, online sohbet sitesi deneyimini özgürce yaşa ve muhabbetin keyfini çıkar!

İlk yorum yazan siz olun.

Cevap bırakın
Gerekli alanlar işaretlenmiştir. *