
GPT-4 size bir şiir yazar, kod üretir, hukuki belgeleri özetler. Peki içinde gerçekten ne oluyor? Milyarlarca parametrenin hangi kombinasyonu “Türkiye’nin başkenti Ankara’dır” çıktısını veriyor? Bu soruya cevap bulmaya çalışan alan: mekanik yorumlanabilirlik.
Mekanik yorumlanabilirlik nedir?
Mekanik yorumlanabilirlik (mechanistic interpretability), büyük dil modellerinin iç işleyişini anlamak için geliştirilen bir AI araştırma alanıdır. Amacı, bir modelin belirli bir çıktıyı neden ürettiğini somut biçimde açıklamaktır: hangi iç bileşenler devreye girdi, hangi hesaplamalar yapıldı.
Genel XAI yaklaşımları “bu kelime tahmine ne kadar katkı yaptı?” gibi dışsal açıklamalar üretir. Mekanik yorumlanabilirlik ise modelin nöron aktivasyonlarını, dikkat kafalarını ve matematiksel devreleri tek tek inceler. Hedef, bir mühendis bir devrenin şemasını okuduğu gibi sinir ağını adım adım okuyabilmek.
Anthropic, DeepMind, EleutherAI ve MIT gibi kurumların son iki yılda bu alana ciddi kaynak ayırması tesadüf değil. AI güvenliği ve hizalama için modeli içten anlamak, onu yüzeysel testlerle değerlendirmekten çok daha güvenilir bir yol. Güvenilir bir YZ için önce ne öğrendiğini bilmek gerekiyor.
Neden bu kadar önemli? Kara kutu problemi
Modern LLM’ler milyarlarca parametre içerir. GPT-4 gibi modellerin tam parametre sayısı kamuya açıklanmamış; yüzlerce milyar parametreden söz ediliyor. Bu ölçekte bir ağı anlamak, insan beynini nöron nöron haritalamaya benziyor; yıllar önce hayal bile edilemeyecek bir görev.
“Kara kutu” problemi tam da buradan doğuyor: modele girdi veriyorsunuz, çıktı alıyorsunuz, ama aradaki hesaplama tamamen görünmez. RLHF ile eğitim sırasında modelin insan tercihlerini öğrenmesi bekleniyor, ancak bunu nasıl kodladığı bilinmiyor. Yanlış bir şeyi öğrenmiş mi? Model zararlı bir çıktı ürettiğinde bu davranış gerçekten kaldırıldı mı, yoksa yalnızca bastırıldı mı?
Bu soruların cevapları halüsinasyon, önyargı ve jailbreak açıklarını anlamak için kritik. Daha güvenli modeller inşa etmek için mekanik yorumlanabilirliğe ihtiyaç var; yüzeysel davranış testleri bu işin yerine geçemiyor.
Temel kavramlar
Özellikler (features): modelin öğrendikleri
Bir sinir ağı eğitim sırasında veriden örüntüler öğrenir. Bu örüntülerin her birine “özellik” (feature) denir. Bazı özellikler somut: “köpek kulağının görüntüsü.” Bazıları soyut: “olumsuz duygusal ton” ya da “programlama diline özgü sözdizimi.”
Mekanik yorumlanabilirlik araştırmacıları, belirli nöronların hangi özelliklere karşılık geldiğini anlamaya çalışır. Anthropic’in 2023’te yayımladığı bir çalışmada GPT-2 Small’daki nöronlar tek tek incelendi; bazı nöronların yalnızca büyük harfle başlayan kelimeler veya belirli diller gibi dar kategorilere duyarlı olduğu görüldü. Çoğu nöron bu kadar net değil: tek bir nöron çok farklı ve ilgisiz kavramlara aynı anda yanıt veriyor.
Bu durum “polisemi” (çok anlamlılık) olarak biliniyor. İnsan dilindeki kelime çok anlamlılığına benzer biçimde, bir nöron da birden fazla özelliği aynı anda temsil edebiliyor.
Süperpozisyon: sınırlı nöronlara sıkışan sonsuz kavramlar
Bir modelin öğrenebileceği kavram sayısı pratik olarak sınırsız, ama nöron sayısı sabittir. Bu çelişkiyi çözmek için modeller “superposition” adı verilen bir strateji benimsiyor: birden fazla özelliği aynı nöron grubuna yığıyor.
Bunu görselleştirmek için şunu düşünün: 3 boyutlu bir uzaya 5 farklı ekseni biraz eğri yerleştirirseniz, her eksen birbiriyle küçük açılar yaparak “sığar.” Model de tam olarak bunu yapıyor. Tek bir nöronu incelediğinizde ne gördüğünüzü tam anlayamazsınız, çünkü o nöron birden fazla özelliğin parçası.
Sparse autoencoder’lar bu problemi çözmek için tasarlandı.
Devreler (circuits): transformer içindeki işlem yolları
Modelin bir görevi yerine getirirken birlikte çalışan bileşenlerine “devre” (circuit) deniyor. Devre analizi, belirli bir girdi-çıktı davranışını hangi nöron ve dikkat kafası kombinasyonunun ürettiğini ortaya koymaya çalışır.
Örnek: “The Eiffel Tower is in ___” tamamlanırken model “Paris” çıktısını üretiyor. Bu çıktıya hangi nöronlar hangi katmandan katkı yaptı? Bu soruya cevap, bir devrenin haritasını çıkarıyor. Araştırmacılar bazı basit devrelerde tanıdık algoritma benzeri yapılar buldu: döngüler, koşul ifadeleri, arama tabloları gibi davranışlar.
Dikkat kafaları (attention heads) ve rolleri
Transformer mimarisinin dikkat mekanizması, her katmanda birden fazla “dikkat kafası” barındırır. Her kafa, giriş dizisindeki farklı ilişkilere odaklanabilir. Bu kafaların belirli ve tekrarlanabilir rolleri olduğu araştırmalarla ortaya kondu.
Kimi kafalar sözdizimsel ilişkilere odaklanır: özne-nesne bağlantıları ya da zamir-anteseden çözümlemeleri. Kimileri semantik benzerlik üzerine çalışır, kimileri pozisyon bilgisini işler. Bu rollerin modelden modele tutarlı biçimde ortaya çıkması önemli bir bulgu; modelin davranışını anlaşılabilir parçalara ayırmak gerçekten mümkün.
Induction head (tümevarım kafası) en iyi belgelenmiş dikkat kafalarından biri. “[A][B]…[A]” örüntüsü gördüğünde, [A]‘dan sonra [B] gelmesi gerektiğini tahmin eder. In-context öğrenmenin temel mekanizması olarak kabul ediliyor; modele birkaç örnek gösterdiğinizde hızla adapte olmasını açıklıyor.
Sparse autoencoder: özellikleri çıkarmanın yolu
Süperpozisyon problemi çözülmeden nöronları doğrudan analiz etmek yanıltıcı sonuçlar veriyor. Sparse autoencoder (SAE), bu problemi dolaylı yoldan çözüyor.
SAE, modelin aktivasyonlarını alır ve bunları çok daha geniş ama seyrek (sparse) bir uzayda yeniden ifade eder. Seyreklik kısıtı, her kavramın bağımsız bir boyuta düşmesini zorluyor. Eğitim tamamlandığında SAE’nin her bir boyutu yorumlanabilir bir özelliğe karşılık gelir: “büyük harf başlangıcı,” “olumlu duygu,” “programlama dili sözdizimi” gibi.
SAE çıktıları hâlâ tam güvenilir değil; bazı boyutlar yorumlanamaz kalıyor. Ama bu araç, süperpozisyon duvarını yıkmanın şu an için en işlevli yolu.
Anthropic’in SAE çalışmaları ve özellik atlasları
Anthropic, 2024’te Claude 3 Sonnet üzerinde yürüttüğü SAE analizini yayımladı. Milyonlarca özellik çıkardı ve bunları bir “özellik atlası”nda görselleştirdi. Bu atlasta “Altın Köprü,” “Einstein,” “kimlik siyaseti” gibi somut kavramlara karşılık gelen özellikler tespit edildi.
Çalışmanın en dikkat çekici bulgusu, “Asistan” token’ına karşılık gelen özelliğin kölelik ve hapis gibi kavramlarla ilişkili olmasıydı. RLHF eğitiminin bazı kasıtsız bağlantılar kurmuş olabileceğine işaret eden ilk somut bulgulardan biri bu. Modelin içindeki bu ilişkilenmeyi düzeltmek için önce onu görmek gerekiyordu.
Aktivasyon yaması (activation patching) tekniği
Aktivasyon yaması, bir devrenin nedensel rolünü test etmek için kullanılan deneysel bir yöntem. İki farklı girdi alınır: “beklenen davranışı tetikleyen” ve “tetiklemeyen.” Sonra bir girdinin aktivasyonları diğerine belirli katmanlarda yapıştırılır.
Örnek: “Ankara Türkiye’nin başkentidir” ve “Paris Fransa’nın başkentidir” cümleleri alınır. “Ankara” çıktısına yol açan aktivasyonlar “Paris” örneğine yapıştırılır. Bu işlem çıktıyı “Paris”ten “Ankara”ya kaydırıyorsa, o aktivasyon bölgesi söz konusu bilgiyi gerçekten taşıyor demektir.
Akıl yürüten modellerin karmaşık hesaplama zincirleri analiz edilirken de işe yarıyor. Test-time compute sırasında hangi “düşünce adımları” çıktıyı gerçekten etkiliyor, hangisi pasif kalıyor?
Öne çıkan araştırmalar
Induction circuits: desenlerden öğrenme
2022’de Olah ve ekibinin yayımladığı “In-context Learning and Induction Heads” makalesi, in-context öğrenmenin mekanik temelini ortaya koydu. İki kafa katmanından oluşan bu devre (“Previous Token Head” ve “Induction Head”) dizide daha önce görülen örüntüleri takip etmeyi öğreniyor.
Model, sıfır parametre güncellemesi olmadan yeni görevlere adapte olabiliyor. Bunun altında bu basit iki kafa yatıyor. Induction Head’in modelin büyüklüğünden bağımsız biçimde kritik katmanlarda ortaya çıktığı da görüldü; ölçek arttıkça bu mekanizmanın güçlendiğine işaret ediyor.
Dolaylı nesne tanımlama (IOI) devreleri
“Mary had a little lamb, so Mary gave the lamb to ___” gibi cümlelerde model “Mary”yi doğru seçiyor. IOI (Indirect Object Identification) deneyi, bu davranışın arkasındaki devre haritasını çıkardı.
Araştırmacılar 26 farklı dikkat kafasını ve üç devre bileşenini tespit etti: S-Inhibition Heads (aynı isimdeki başka adayı bastırır), Name Mover Heads (doğru ismi çıktıya taşır), Backup Name Mover Heads (birincil kafa başarısız olursa devreye girer). Model davranışının sıradan algoritmalar gibi modüler biçimde ayrıştırılabileceğinin somut kanıtı.
Uygulamalar: halüsinasyon, jailbreak ve önyargı tespiti
En pratik uygulama alanlarından biri halüsinasyon analizi. Modelin “bilmiyorum” demesi gereken yerde yanlış bir bilgiyi güvenle sunmasının arkasında hangi devreler var? “Bilgi belirsizliği” ile ilişkili özelliklerin baskılandığı durumlarda halüsinasyon oranının arttığını gösteren araştırmalar var. Bu baskılamanın nereden geldiğini anlamak, müdahale noktalarını belirliyor.
Bir jailbreak girdisi neden güvenlik filtrelerini aşıyor? “Zararlı içerik” özelliğini bastıran ya da “güvenlik talimatı” devresini bypass eden bir mekanizma var mı? Cevapları yalnızca kırmızı takım testleriyle bulmak mümkün değil; modelin iç hesaplamasına bakmak gerekiyor.
Cinsiyet ve ırk önyargısı da bu merceğe girdi. “Doktor” kelimesiyle hangi cinsiyet özelliklerinin aktive olduğunu görmek ve bu bağlantıları devre düzeyinde izole etmek, yüzeysel eğitim müdahalelerinden daha hedefli düzeltmeler yapmayı mümkün kılıyor. Belirli devreleri doğrudan değiştirme yaklaşımı, “model cerrahisi” adıyla alanda hız kazanıyor.
Mekanik yorumlanabilirlik araçları
TransformerLens, Neel Nanda’nın geliştirdiği Python kütüphanesi. GPT-2, GPT-Neo, LLaMA gibi modellerin aktivasyonlarına doğrudan erişmeyi, dikkat desenlerini görselleştirmeyi ve aktivasyon yaması deneylerini kolayca yapmayı mümkün kılıyor. Çoğu akademik çalışma bu kütüphane üzerine inşa ediliyor.
Neuroscope, Anthropic’in geliştirdiği interaktif araç. Belirli bir nöronu seçip hangi girdilerle maksimum aktivasyon gösterdiğini görmenizi ve nöronun “tercih ettiği” metin örüntülerini incelemenizi sağlıyor. Benzer bir araç OpenAI da sunuyor.
Activation Atlas, bir modelin özellik uzayını görsel olarak haritaya döküyor. Benzer aktivasyon örüntülerine sahip girdileri bir araya getirerek hangi bölgenin hangi kavramları temsil ettiğini gösteriyor. Anthropic’in özellik atlasları Claude modelleri için milyonlarca özellik barındırıyor ve araştırmacılara gezinebilir bir harita sunuyor.
Anlaşılabilir YZ geleceği
Mekanik yorumlanabilirlik henüz erken aşamada. Mevcut çalışmaların büyük bölümü GPT-2 gibi küçük modellerde yürütülüyor; GPT-4 ölçeğindeki modeller için tam bir devre haritası çıkarmak bugün teknik olarak mümkün değil. Model büyüdükçe analiz karmaşıklığı katlanarak artıyor.
Yine de yön belli. Anthropic’in Interpretability Team’i son iki yılda kadrosunu önemli ölçüde genişletti. DeepMind’ın Gemini yorumlanabilirlik çalışmaları da hız kazandı. Akademide MIT ve Stanford’dan düzinelerce ekip bu problemlere odaklanıyor. Otomatikleştirilmiş devre keşfi için LLM destekli araçlar geliştirilmeye başlandı; bu “modeli model ile anlama” yaklaşımı dikkat çekiyor.
Uzun vadeli hedef somut: modeli eğitmeden önce “bu model halüsinasyon riskli devrelere sahip mi?” gibi soruları cevaplayabilmek, hatta eğitim sürecini devre düzeyinde yönlendirmek. Davranışı dışarıdan gözlemlemek yerine içeriden anlamak çok daha güçlü bir yaklaşım.
Mekanik yorumlanabilirlik; halüsinasyon azaltma, önyargı tespiti ve hizalama güvencesi, jailbreak analizi ve model cerrahisi için bütünleşik bir çerçeve sunuyor. Kara kutudan çıkan bir YZ, hem daha güvenli hem de daha öngörülebilir.



