Gizli Girişim Subquadratic, Büyük Dil Modellerindeki Matematiksel Darboğazı Çözdüğünü İddia Ediyor
newspaper Haber schedule 19 Haziran 2026 · 14:15 timer 5 dk okuma

Gizli Girişim Subquadratic, Büyük Dil Modellerindeki Matematiksel Darboğazı Çözdüğünü İddia Ediyor

Miami merkezli yapay zeka girişimi Subquadratic, büyük dil modellerini (LLM) neredeyse on yıldır geride tutan matematiksel bir darboğazı çözdüğünü iddia ediyor. Şirket, yeni modeli SubQ'nun mevcut modellerden 56 kata kadar daha hızlı olduğunu ve çok daha az enerji tükettiğini öne sürüyor. Bağımsız testler, iddiaların bir kısmını doğrulasa da, uzmanlar temkinli yaklaşıyor.

Subquadratic'in Büyük İddiası

Miami merkezli yapay zeka (AI) girişimi Subquadratic, geçtiğimiz ay gizlilik modundan çıkarak büyük bir iddiayla gündeme geldi. Şirket, büyük dil modellerini (large language models - LLM) neredeyse on yıldır geride tutan matematiksel bir darboğazı çözdüğünü duyurdu. İlk başta detayların az olması nedeniyle birçok kişi ikna olmasa da, Subquadratic bağımsız bir değerlendirmenin sonuçlarını paylaşarak iddialarını desteklemeye başladı. Sonuçlar, şirketin iddialarının dikkate alınmaya değer olabileceğini gösteriyor.

Subquadratic, SubQ adını verdiği yeni bir tür LLM geliştirdiğini belirtiyor. Şirkete göre SubQ, piyasadaki diğer modellerden çok daha hızlı, daha ucuz ve çok daha az enerji tüketiyor. Ayrıca SubQ'nun, çoğu modelden 12 kata kadar daha fazla metni aynı anda işleyebildiği ve yüzlerce belge veya tüm kod tabanlarını analiz etmek gibi veri yoğun görevleri yerine getirebildiği iddia ediliyor. Dahası, Subquadratic, SubQ'nun kodlama gibi temel görevlerde Google DeepMind, OpenAI ve Anthropic'in en iyi modelleriyle neredeyse aynı performansı gösterdiğini söylüyor.

Şüphecilik ve Bağımsız Testler

Subquadratic'in iddiaları ilk başta büyük bir şüpheyle karşılandı. Bunun başlıca nedeni, şirketin yalnızca birkaç kendi yayınladığı test puanı dışında çok az kanıt sunması ve SubQ'yu henüz geniş kitlelerin denemesi için kullanıma açmamış olmasıydı. Yapay zeka mühendisi Dan McAteer, bu durumu X platformunda şöyle özetledi: "SubQ ya Transformer'dan bu yana en büyük atılım... ya da AI Theranos'u."

Bir ay sonra Subquadratic, modeli hakkında daha fazla bilgi yayınladı ve üçüncü taraf firma Appen tarafından yürütülen ek bağımsız testlerin sonuçlarını paylaştı. Subquadratic'in kurucu ortağı ve teknoloji sorumlusu (CTO) Alex Whedon, "Sağlıklı bir şüphecilik bekliyorduk" dedi ve ekledi: "Geriye dönüp bakınca, üçüncü taraf kıyaslamalarını ilk duyuruyla birlikte yayınlamak şüpheciliğin çoğunu önleyebilirdi. Bu yüzden gelecekteki sonuçları yayınlamadan önce tamamen doğrulandığından emin olmak için zaman ayırıyoruz."

Appen'in SubQ üzerinde yaptığı testler, şirketin iddialarının çoğunu doğruladı. Appen'in üretken yapay zeka araştırma direktörü Jeanine Sinanan-Singh, "Bu beni gerçekten heyecanlandırdı, mimarilerini doğruladı" dedi ve "'Vay canına, bu oyunun kurallarını değiştirebilir' diye düşündüm, çünkü modeller hız ve verimsizlikle mücadele ediyor" diye ekledi. Ancak Sinanan-Singh, şok edici sonuçların başkaları tarafından doğrulanması gerektiğini vurguladı.

Matematiksel Darboğaz: Yoğun Dikkat ve Karesel Genişleme

Subquadratic'in iddialarının neden bu kadar önemli olduğunu anlamak için çoğu LLM'nin nasıl çalıştığına bakmak gerekiyor. LLM'lerin içindeki temel mekanizma, "yoğun dikkat" (dense attention) adı verilen bir süreci yürüten bir tür sinir ağı olan "dönüştürücü"dür (transformer). Günümüz LLM'leri genellikle birden fazla dönüştürücüyü birbirine bağlar. (LLM çağının temel makalesi, 2017'de Google araştırmacıları tarafından yayınlanan "Attention Is All You Need" başlıklı makaledir.)

Yoğun dikkat şöyle çalışır: Bir dönüştürücü bir metin parçasını işlerken, önce her kelimeyi (veya kelimenin bir kısmını, "token" olarak adlandırılır) bir sayıyla kodlar. Metnin tam anlamını yakalamak için, bu sayıların her birini metindeki diğer her sayıyla çarpar. Örneğin, 10.000 kelimelik bir metin, yaklaşık 50 milyon bireysel çarpma işlemi başlatır. Bu çok fazla hesaplama demektir ve LLM'lerin enerji canavarı olmasının ana nedenidir.

Metnin uzunluğu arttıkça hesaplama sayısı katlanarak artar. Bunun nedeni, eklenen her sayının önceki tüm sayılarla çarpılması gerektiğidir. Kelime sayısını iki katına çıkarmak, hesaplama sayısını yaklaşık dört katına çıkarır. Bu artış oranına "karesel genişleme" (quadratic expansion) denir.

Subquadratic'in Çözümü: Seyrek Dikkat

Subquadratic'in çözümü, bir dönüştürücünün temel işlemi olan yoğun dikkati terk edip "seyrek dikkat" (sparse attention) adı verilen bir yöntemi kullanmaktır. Bu yöntem, gereken hesaplama sayısını önemli ölçüde azaltır. Yoğun dikkatte her token diğer her tokenla çarpılırken, seyrek dikkat yalnızca bazı tokenları çarpmak için seçer. Fikir şudur: Bir metindeki tüm kelime ilişkileri önemli değildir.

Whedon, "Seyrek dikkat, tüm bu ilişkilerin önemli olmadığını söyler, çünkü gerçekten önemli değiller" diyor. "Bir kitap okurken, birinci ve ikinci kelimeye, birinci ve üçüncüye bakmazsınız - bu çılgınca olur." Bu basit bir yaklaşım ve Subquadratic bunu deneyen ilk şirket değil. Daha önceki seyrek dikkat teknikleri, yoğun dikkat kadar iyi anlam yakalayamadı. Subquadratic, sonunda bu sorunu çözdüğünü iddia ediyor. Şirket, SubQ'yu ana akım yoğun dikkat modelleriyle performansta rekabet eden ilk seyrek dikkat LLM'si olarak tanıtıyor.

Whedon, "Tarihsel olarak, çoğu mekanizma sabit desenler kullandı, örneğin her zaman ilk kelimeyi beşinciyle karşılaştırmak gibi. Bu oldukça sınırlayıcı. Dil bunun için çok karmaşık. Mekanizmamızı benzersiz kılan şeylerden biri, hangilerinin önemli olduğunu dinamik olarak seçmesidir" diyor. Şirket, SubQ'nun hangi kelimelere odaklanacağını tam olarak nasıl seçtiğini açıklamıyor, ancak seçimin anında hesaplandığını ve her metin için farklı olduğunu belirtiyor. Whedon, "İşin sırrı burada" diyor.

Test Sonuçları ve Performans

Appen, SubQ'yu bir dizi standart testte değerlendirdi. Doğrudan bir hız testinde, SubQ'nun önceki bir seyrek dikkat tekniği olan FlashAttention kullanan modellerden 56 kat daha hızlı olduğu bulundu. LiveCodeBench adlı gerçek yarışmalardan alınan rekabetçi kodlama problemlerinde modelin performansını ölçen bir testte SubQ, %89,7 puan alarak diğer üst düzey kodlama modelleriyle aynı seviyede yer aldı.

Subquadratic'in maliyet iddialarını doğrulamak daha zor çünkü SubQ henüz yaygın olarak kullanılamıyor. CEO Justin Dangel'e göre, Anthropic'in LLM'si Opus 4.6'yı Nvidia tarafından geliştirilen RULER 128 testinden geçirmek 2.600 dolar tutarken, SubQ için bu maliyet yalnızca 8 dolar. SubQ ayrıca çok büyük veri kümelerini işleyebiliyor. Modelin 12 milyon tokena kadar bağlam penceresi (context window) bulunuyor. Çoğu üst düzey modelin bağlam penceresi 1 milyon token.

Appen ayrıca, modelin büyük miktarda veri içinde belirli bilgileri ne kadar iyi bulabildiğini ölçen "iğne-samanlık" (needle-in-a-haystack) testini de uyguladı. Appen'in raporuna göre SubQ, 6 milyon ve 12 milyon tokenlik bağlam pencerelerinde %98 puan alarak "birkaç modelin test edildiği ölçeklerde neredeyse mükemmel uzun bağlam erişimi" sağladı.

Neden Önemli?

Subquadratic'in iddiaları, LLM'lerin karşılaştığı en büyük sorunlardan birine -hesaplama maliyeti ve enerji tüketimi- potansiyel bir çözüm sunuyor. Eğer doğruysa, SubQ, yapay zeka modellerini çok daha erişilebilir ve verimli hale getirebilir. Ancak, henüz geniş çapta erişime açılmamış olması ve bazı teknik detayların gizli tutulması, ihtiyatlı olmayı gerektiriyor. Subquadratic, modeli yalnızca kodlama ve çok büyük veri kümelerinde arama yapma gibi belirli görevler için optimize ettiğini belirtiyor. Şirket, on binlerce potansiyel kullanıcının erken erişim için kaydolduğunu söylese de, bekleme listesi uzun ve çok az kişiye erişim verildi.

Bir diğer tartışma konusu ise Subquadratic'in SubQ'yu sıfırdan eğitmek yerine, Çin açık kaynak modeli Qwen'in bir sürümünden ağırlıkları (weights) yeniden kullanması. Bu, model yapımcıları arasında yaygın bir uygulama olsa da, Subquadratic'in LLM'lerin nasıl çalıştığını tamamen yeniden icat ettiği iddiasıyla çelişiyor. Bağımsız yapay zeka araştırmacısı Will Depue, "Gerçek ve kullanışlı bir şey inşa etmiş olabilirler, ancak kamuya açık kanıtlar henüz karesel dikkat darboğazını çözdükleri yönündeki güçlü iddiayı haklı çıkarmıyor" diyor.

Yine de Subquadratic, farklı bir şey yapmanın tek seçeneği olduğunu savunuyor. Whedon, "Rekabetçi bir model oluşturmak istiyorsanız, yeni fikirlere sahip olmalısınız" diyor ve ekliyor: "OpenAI'den daha fazla zorlukla karşı karşıyayız."

tag Subquadratic tag büyük dil modeli tag LLM tag yapay zeka tag seyrek dikkat tag performans

İlgili Terimler

8 terim