
Geçtiğimiz yılın başında çıkardığı DeepSeek-R1 ile yapay zeka dünyasında istikrarları değiştiren DeepSeek, çok yakında tekrar sarsıntı tesiri yaratacak bir modelle karşımıza çıkabilir. Çin merkezli şirketin yapay zeka alanında çığır açacak yeni bir model üzerinde çalıştığı bir müddettir konuşuluyordu. Bu hafta DeepSeek tarafından yayımlanan bir makale, bu yeni modelde bizi ne üzere yeniliklerin beklediğini daha açık formda ortaya koydu. Görünen o ki R1 üzere DeepSeek’in yeni modeli de yapay zekaların eğitilmesi konusunda bölüme yeni kapılar aralayacak.
DeepSeek tarafından paylaşılan makalede, “Manifold-Constrained Hyper-Connections” (mHC) ismi verilen yeni bir derin öğrenme mimarisi tanıtılıyor. DeepSeek’in kurucusu olan Liang Wenfeng’in yanı sıra Zhenda Xie, Yixuan Wei ve Huanqi Cao’nun da imzasını taşıyan çalışma, büyük hudut ağlarında (neural network) eğitim sırasında ortaya çıkan kararsızlık ve ölçeklenme sorunlarını azaltmayı hedefliyor. Araştırmacılara nazaran mHC, mevcut yaklaşımlara kıyasla hem daha dengeli bir eğitim süreci sunuyor hem de önemli ek hesaplama maliyetleri oluşturmadan daha büyük modellere ölçeklenebiliyor. Bu da, büyük lisan modellerinin eğitim maliyetlerini düşürmeye yönelik kıymetli bir adım olarak görülüyor. Hatırlarsanız DeepSeek-R1’in en çok ses getirdiği nokta da bu husustaki başarısıydı.
DeepSeek’in geliştirdiği bu mimari, temellerini ByteDance araştırmacılarının 2024 yılında tanıttığı “hyper-connections” (hiper bağlantılar) yaklaşımından alıyor. Bu yaklaşım, günümüzde pek çok büyük lisan modelinin temelini oluşturan ResNet mimarisinde bilginin katmanlar ortasında direkt aktarılmasına imkân tanıyan yapıyı genişleterek, sinyallerin ağ içinde daha dengeli biçimde ilerlemesini sağlamayı amaçlıyordu. Lakin ByteDance’in önerdiği yapı, bilhassa çok büyük modellerde ciddi bellek yükü oluşturması nedeniyle pratikte ölçeklenme problemleri yaratıyordu. DeepSeek’in çalışması, bu noktada devreye girerek kelam konusu yapıyı daha uygulanabilir hâle getiriyor.
DeepSeek Yeni Modelini Bu Mimariyle Geliştiriyor
mHC mimarisinin en kıymetli farkı, katmanlar ortası direkt bilgi akışını rastgele genişletmek yerine, bu akışı belli matematiksel kurallar çerçevesinde tanımlanmış bir uzay (manifold) içinde tutması. Bu sayede “identity mapping” olarak isimlendirilen ve hudut ağlarında sinyallerin yüzlerce katman boyunca bozulmadan iletilmesini sağlayan kritik özellik yine kazanılıyor. Araştırmacılar, bu kısıt sayesinde sinyallerin ne kaybolduğunu ne de denetimden çıkarak patladığını; hasebiyle eğitim sürecinin çok daha stabil hâle geldiğini belirtiyor. mHC mimarisi; 3 milyar, 9 milyar ve 27 milyar parametreli modeller üzerinde denendi ve önemli bir ek hesaplama yükü oluşturmadan sıkıntısız halde ölçeklenebildiği gösterildi.
DeepSeek tarafından paylaşılan bu cins teknik makaleler, yaklaşan yeni modelin habercisi olarak görülüyor. Liang Wenfeng, daha evvelki modelleri yayınlamadan evvel de emsal makaleler paylaşmıştı. Bu yüzden yeni modelin de bu mimari üzerine kurulu olarak geleceği düşünülüyor. Beklentileri hayli yükselten bu modelin tam olarak ne vakit tanıtılacağı şimdi katılaşmış değil. Ancak 17 Şubat’tan evvel tanıtılmış olacağı düşünülüyor.
Kaynak : Donanimhaber
İlk yorum yazan siz olun.