
Dudak senkronizasyonu yapan robot teknolojileri, insansı robotların geleceği açısından kritik bir eşik olarak görülüyor. Columbia Üniversitesi’nde geliştirilen EMO adlı robot, sadece konuşma üretmekle kalmıyor, insanlara emsal formda dudak ve yüz hareketlerini senkronize ederek konuşmayı öğreniyor. Dudak senkronizasyonu yapan robot EMO, bu yeteneği sayesinde insan-robot etkileşiminde daha doğal ve gerçekçi bir tecrübe sunmayı hedefliyor.
EMO’nun geliştirilme süreci, robotun kendi yüz hareketlerini gözlemleyerek öğrenmesine dayanıyor. Columbia Üniversitesi’nde robotik alanında doktora öğrencisi olan Yuhang Hu ve Prof. Hod Lipson liderliğindeki takım, EMO’yu esnek silikon bir yüzle donatılmış robotik bir baş olarak tasarladı. Bu yüzün altında yer alan 26 küçük motor, farklı kombinasyonlarda çalışarak çok sayıda yüz tabiri ve dudak hareketi oluşturabiliyor.
EMO robotu konuşmayı ve yüz hareketlerini nasıl öğreniyor?
Araştırmacılar, EMO’nun öğrenme sürecini başlatmak için robotu bir aynanın karşısına yerleştirdi. EMO, binlerce farklı yüz tabiri üretirken kendi imajını izleyerek hangi motor kombinasyonlarının hangi görsel sonuçları doğurduğunu öğrenmeye başladı. Bu yaklaşım, görselden aksiyona olarak isimlendirilen ve kısaca VLA (Vision-Language-Action) modeliyle tanımlanan bir öğrenme tekniğine dayanıyor. Bu sayede robot, yüz hareketleri ile motor denetimi ortasındaki bağlantıyı insan müdahalesi olmadan kavrayabiliyor.
Bir sonraki basamakta EMO, dudak senkronizasyonu yeteneğini geliştirmek için insanlara ilişkin konuşma ve müzik söyleme görüntülerini tahlil etti. Saatler süren YouTube görüntü incelemeleri sırasında robot, belli seslerin hangi ağız ve dudak biçimleriyle üretildiğini ayırt etmeyi öğrendi. Yapay zekâ sistemi, bu müşahedeleri daha evvel edinilen motor bilgileriyle birleştirerek sentetik ses modülünden çıkan sözlere uygun dudak hareketleri üretmeyi başardı.
Elbette teknoloji şimdi kusursuz değil. EMO, bilhassa “B” ve “W” üzere dudakların büsbütün kapanmasını yahut yuvarlanmasını gerektiren seslerde zorlanıyor. Fakat araştırmacılara nazaran bu durum, robotun daha fazla bilgiyle eğitilmesi sayesinde vakitle aşılabilecek bir sorun. İnsanlarda olduğu üzere, pratik arttıkça motor denetimi ve ses-ifadeyle ahenk da gelişiyor. Bu da EMO’nun gelecekte daha akıcı ve doğal konuşmalar yapabilmesinin önünü açıyor.
Yuhang Hu’ya nazaran dudak senkronizasyonu yeteneğinin gelişmiş konuşma yapay zekâlarıyla birleştirilmesi, insan-robot ilgilerinde yeni bir boyut yaratabilir. ChatGPT yahut Gemini gibisi lisan modelleriyle entegre edilen bir robot, sırf gerçek cümleler kurmakla kalmaz, birebir vakitte konuşmanın duygusal bağlamına uygun yüz sözleri de sergileyebilir. Robot, insan konuşmalarını ne kadar fazla gözlemlerse, mimik ve jestleri o kadar bağlama hassas hale geliyor. Bu da robotların eğitim, sıhhat ve müşteri hizmetleri üzere alanlarda daha tesirli kullanılmasını mümkün kılabilir.
Kaynak : Donanimhaber
İlk yorum yazan siz olun.