
1993 yılında Adobe tarafından geliştirilen PDF formatı, evrakların her aygıtta birebir görünmesini sağlama vaadiyle dijital dünyanın en kalıcı standartlarından biri haline geldi. Otuz yılı aşkın müddettir kamu kurumlarından akademiye, hukuk ofislerinden şirket arşivlerine kadar milyarlarca evrak bu formatta üretiliyor. Lakin bugün tıpkı özellik, yapay zeka sistemleri için ciddi bir pürüze dönüşmüş durumda.
Sorunun temelinde kolay lakin kritik bir gerçek yatıyor. PDF, bir metin formatı değil, bir sayfa çizim talimatıdır.
HTML üzere formatlar metni mantıksal bir sırayla saklarken PDF, her harfi ve her öğeyi sayfa üzerindeki belli koordinatlara yerleştirir. Yani belge, “önce şu başlık gelir, akabinde paragraf başlar” üzere yapısal bir hiyerarşi taşımaz. Bunun yerine “şu noktaya şu karakteri çiz” komutları içerir. İnsan gözü için kusursuz olan bu sistem, metni satır satır ve soldan sağa işlemeye alışkın büyük lisan modelleri için karmaşık bir bulmacaya dönüşür.
Editoryal yapıyı göremiyorlar
Yapay zekaların PDF’lerde zorlanmasının en kıymetli nedeni editoryal yapıyı direkt görememeleri.
Bir insan için iki paragraf ortasındaki boşluk yeni bir kanıyı, girinti alt başlığı, büyük punto bir başlığı söz eder. Lakin PDF evrakında bu mana katmanları açıkça işaretlenmez. Model, başlıkla gövde metnini, dipnotla ana paragrafı ya da çok kolonlu akademik makalelerdeki metin akışını ayırt etmekte zorlanabilir.
Bu durum pratikte önemli yanılgılara yol açar. Çok kolonlu bir bilimsel makale soldan sağa düz okunursa anlamsız bir metin ortaya çıkar. Dipnotlar ana metne karışabilir. Tablolar satır ve sütun bütünlüğünü kaybedebilir. Sonuçta model yanlış özetler üretebilir yahut eksik bağlamdan ötürü “halüsinasyon” olarak isimlendirilen uydurma içerikler oluşturabilir ve oluşturuyor.
OCR her vakit tahlil değil
PDF içindeki metin bazen direkt seçilebilir değildir. Bilhassa taranmış evraklarda metin aslında bir imajdır. Bu durumda devreye OCR (Optik Karakter Tanıma) girer. Fakat OCR araçları da sınırsız değildir.
Çok kolonlu sayfalar, karmaşık tablolar, grafikler, el yazıları, diyagramlar ve formlar OCR sistemlerini zorlar. Yapay zeka asistanları PDF’yi işlerken birden fazla aracı arka arda kullanabilir. Kimi vakit görsel-dil modelleriyle yine okumaya çalışır, kimi vakit metni özetlemeye yönelir. Bu süreç hem hesaplama maliyetini artırır hem de tutarsız sonuçlar doğurabilir.
Üstelik modeller tarihi olarak PDF’ler üzerinde ağır biçimde eğitilmedi. Meğer yüksek kaliteli içeriklerin değerli bir kısmı – akademik makaleler, ders kitapları, kamu raporları – PDF formatında saklanıyor. Son devirde geliştiriciler bu açığı kapatmaya başladı.
PDF’yi çözmeye çalışan yeni modeller
Allen Institute for AI tarafından geliştirilen olmOCR isimli görsel-dil modeli yaklaşık 100 bin PDF üzerinde eğitildi. Gaye, başlıkları, tabloları ve sayfa tertibini daha hakikat tespit edebilmekti. Benzeri halde Hugging Face araştırmacıları milyarlarca PDF’den oluşan bir bilgi seti oluşturarak güçlü dokümanları işlemek üzere özelleştirilmiş modeller geliştirdi ve trilyonlarca token’ı model eğitimine kazandırdı. PDF çözümlemeye odaklanan Reducto ise çok basamaklı bir yaklaşım benimsiyor. Sistem evvel sayfayı kısımlara ayırıyor. Şayet tablo tespit edilirse başka bir tablo modeli devreye giriyor, grafik algılanırsa eksen ve açıklamaları farklı modeller işliyor. Akabinde görsel-dil modeli çıktıyı denetim ederek kusurları azaltmaya çalışıyor. Bu prosedür bilhassa finans ve hukuk üzere yüksek doğruluk gerektiren alanlarda dikkat çekiyor.
Buna karşın sorun büsbütün çözülmüş değil. İç içe geçmiş PDF belgeleri, el yazısıyla düzenlenmiş evraklar, karmaşık yasal metinler ve alışılmadık dizaynlar hala modeller için önemli sınamalar yaratıyor.
Sorun PDF’de mi, yapay zekada mı?
Bu noktada tartışma ikiye ayrılıyor. Kimi teşebbüsler PDF’nin AI çağına uygun olmadığını savunuyor. İsrailli teşebbüs Factify, büyük lisan modelleriyle doğal biçimde çalışabilecek yeni bir evrak formatı geliştirmeye odaklanmış durumda. Şirket, mevcut PDF yapısını kapalı ve verimsiz buluyor ve akıllı, irtibatlı evraklar için sıfırdan tasarım gerektiğini öne sürüyor.
Diğer tarafta ise PDF savunucuları var. PDF Association Başkanı Duff Johnson’a göre sorun formatta değil, araçlarda. PDF’nin temel gücü hangi aygıtta, hangi tarihte açılırsa açılsın birebir görünümü müdafaası. Mühendislik şirketleri, hukuk ofisleri ve kamu kurumları için bu tutarlılık vazgeçilmez.
Gerçek dünyada ise tablo bu kadar net değil. En nihayetinde PDF, insan merkezli bir standart olarak tasarlandı. Büyük lisan modelleri ise lineer metin akışı üzerinden eğitildi. Bugün yaşanan sorun, iki farklı tasarım ideolojisinin çarpışmasından kaynaklanıyor. Velhasıl yapay zekaların PDF okumakta zorlanmasının nedeni zekalarının yetersiz olması değil, metni temsil etme biçimi ile metni manaya biçimi ortasındaki uyumsuzluk.
Kaynak : Donanimhaber
İlk yorum yazan siz olun.