Sparse Autoencoder Nedir? LLM Devreleri ve Özellik Keşfi

list_altİçindekilerexpand_more

01Kara Kutu Sorunu: LLM’ler Neden Bu Kadar Gizemli?
02Autoencoder’dan Sparse Autoencoder’a
03Sparse Autoencoder Nasıl Çalışır?
04LLM Aktivasyonlarına SAE Nasıl Uygulanır?
05Neden Bu Kadar Önemli? AI Güvenliği ve Hizalama
06Araştırma Kilometre Taşları
07SAE’nin Sınırlılıkları
08Pratikte Kullanım: Araçlar ve Başlangıç
09Devre Keşfinden Yorumlanabilir Yapay Zekaya

ChatGPT’e “Eyfel Kulesi nerededir?” diye sorduğunuzda cevabı doğru verdiğini biliyorsunuz. Peki bu bilgi modelin içinde tam olarak nereye yazılı? Hangi nöronlar ateşleniyor, hangi devreler çalışıyor? Büyük dil modelleri (LLM) milyarlarca parametreyle eğitiliyor, ancak bu parametrelerin içinde ne olduğunu anlamak uzun süre neredeyse imkânsız görünüyordu.

Sparse autoencoder (SAE), bu kara kutu problemine bugüne dek geliştirilen en sistematik çözüm yaklaşımı: bir modelin iç aktivasyonlarını alıp onları insan tarafından okunabilir bileşenlere ayrıştırıyor.

Kara Kutu Sorunu: LLM’ler Neden Bu Kadar Gizemli?

Modern transformer modelleri birer büyük matris çarpımları yığını. Her katmanda yüzlerce ya da binlerce nöron var ve her nöron aynı anda birden fazla kavramı temsil edebiliyor. Buna polisemantik nöron deniyor: tek bir nöron hem “Fransa başkenti” hem “romantik tatil” hem de “şampanya” kavramıyla ilişkili olabilir.

Bunun altında yatan teori süperpozisyon hipotezi. Modelin öğrenmesi gereken kavram sayısı, sahip olduğu boyut sayısından çok daha fazla. Bu durumda model, vektörler arasında küçük açılar bırakarak kavramları üst üste kodluyor. Sonuçta her nöron birden fazla özelliğin doğrusal kombinasyonunu taşıyor.

Bu durum klasik yorumlanabilirlik araçlarını yetersiz kılıyor. LIME veya SHAP gibi yöntemler girdinin hangi bölümünün çıktıyı etkilediğini gösteriyor, ama modelin iç temsillerinde ne olduğunu açıklamıyor. Aktivasyon maksimizasyonu ile belirli bir nöronu en çok ateşleyen örnek bulunabiliyor, ancak polisemantik nöronlarda bu görüntü bulanık ve yorumlanması güç kalıyor.

Autoencoder’dan Sparse Autoencoder’a

Klasik bir autoencoder iki parçadan oluşur: bir encoder ve bir decoder. Encoder girdiyi daha küçük bir gizli temsile dönüştürür; decoder bu temsilden orijinali yeniden oluşturmaya çalışır. Amaç, veriyi sıkıştırarak en önemli yapıları korumak.

Bir SAE bu mantığı farklı bir yönde işletiyor: girişi sıkıştırmak yerine genişletiyor. Modelin aktivasyonunu alıp boyutunu önemli ölçüde artıran bir gizli katmana projekte ediyor. Gizli katman 8 ila 64 kat daha büyük olabiliyor. Ardından bu büyük vektörden orijinal aktivasyonu yeniden oluşturmaya çalışıyor.

Bu genişleme tek başına yeterli değil. Geniş bir gizli katmana izin verirseniz model her şeyi oraya yazabilir ve hiçbir şey okunabilir olmaz. İşin püf noktası seyreklik (sparsity): her girdi için gizli katmandaki nöronların yalnızca küçük bir kısmının aktif olmasını zorunlu kılıyorsunuz. Çoğu nöron sıfıra yakın kalırken yalnızca birkaçı anlamlı değer alıyor.

Sparse Autoencoder Nasıl Çalışır?

Bir SAE’nin matematiksel iskeletini şöyle özetleyebiliriz:

z = f(W_enc · x + b_enc)    # encoder: aktivasyonlar → gizli temsil
x̂ = W_dec · z + b_dec       # decoder: gizli temsil → yeniden oluşturma

Burada f seyrekliği zorunlu kılan aktivasyon fonksiyonu. İki yaygın seçenek var:

ReLU: negatif değerleri sıfıra çekerek doğal bir seyreklik oluşturuyor.
TopK: her geçiş için yalnızca en yüksek k aktivasyonu tutuyor, geri kalanları tamamen sıfırlıyor.

Modeli eğitmek için iki bileşenli bir kayıp fonksiyonu kullanılıyor:

L = ||x - x̂||²  +  λ · ||z||₁

İlk terim yeniden oluşturma hatasını ölçüyor: SAE orijinal aktivasyonu ne kadar iyi geri üretiyor? İkinci terim L1 normu ile seyrekliği cezalandırıyor, yani gizli vektörde mümkün olduğunca az nöron aktif olmalı. λ hiperparametresi bu ikisi arasındaki dengeyi ayarlıyor.

Bu yapı sözlük öğrenimi (dictionary learning) ile doğrudan bağlantılı. Gizli katmandaki her nöron bir sözlük öğesi gibi davranıyor ve her aktivasyon bu öğelerin seyrek bir kombinasyonu olarak ifade ediliyor. İdeal durumda her sözlük öğesi tek bir kavramla örtüşüyor: polisemantik değil, monosemantik oluyor.

LLM Aktivasyonlarına SAE Nasıl Uygulanır?

SAE’yi bir LLM üzerine uygulamak için önce hedef katmanı seçmek gerekiyor. Araştırmacılar genellikle şu noktalara odaklanıyor:

Residual stream: katmanlar arasındaki bilgi akışı
MLP katmanı çıktıları: bilginin yoğun biçimde işlendiği yer
Attention head çıktıları: bağlamsal ilişkilerin üretildiği yer

Hedef katmanın aktivasyonları üzerinde büyük bir veri kümesiyle SAE eğitiliyor. Modeli milyonlarca metin üzerinde çalıştırıyorsunuz, her geçişte aktivasyonları kaydediyorsunuz ve bu aktivasyonları SAE’ye besliyorsunuz.

Eğitim bittikten sonra gizli katmanın her birimi incelenebilir. Bir birimi en çok ateşleyen örnekler toplanıyor ve bu örnekler araştırmacılara gösteriliyor. Sonuçlar şaşırtıcı derecede temiz çıkabiliyor: bir birim yalnızca DNA ile ilgili metinlerde aktifleşiyor. Bir diğeri yalnızca Fransa bağlamında. Bir başkası cümle içindeki olumsuzlama yapılarında. Bu birimler artık polisemantik değil.

Anthropic’in Claude modelleri üzerindeki 2023 tarihli çalışmasında araştırmacılar tek bir SAE’den bir milyona yakın yorumlanabilir özellik çıkardıklarını raporladı. Bunların arasında spesifik kişiler, coğrafi konumlar, duygusal tonlar ve soyut kavramlar yer alıyordu.

Neden Bu Kadar Önemli? AI Güvenliği ve Hizalama

LLM’lerin içini anlayabilmek yalnızca akademik merak değil; yapay zeka güvenliği açısından kritik bir gereklilik.

Bir modelin “aldatma” veya “yanıltıcı muhakeme” özelliğini bulabiliyorsanız, bu özelliğin ne zaman aktifleştiğini izleyebilirsiniz. Modelin belirli bir çıktı üretirken bu devreyi kullanıp kullanmadığını denetleyebilirsiniz. Bu tür denetim olmadan güvenlik değerlendirmeleri tamamen davranış gözlemine dayalı kalıyor: modelin neden güvende olduğunu değil, ne yaptığını ölçüyor.

SAE aynı zamanda steering vector çalışmalarının temelini oluşturuyor. Bir özelliği temsil eden vektörü bulduğunuzda, bunu modelin aktivasyonlarına ekleyerek veya çıkararak davranışını doğrudan yönlendirebiliyorsunuz. Araştırmacılar bu teknikle modellerin belirli kavramlara olan duyarlılığını artırmayı ya da azaltmayı başardı.

Bu yaklaşım RLHF ve Constitutional AI gibi hizalama yöntemleriyle tamamlayıcı bir ilişki içinde. RLHF modelin davranışını dışarıdan şekillendirirken SAE içeride neler olduğunu görünür kılıyor. İkisi bir arada kullanıldığında hem hizalama hem de denetim daha sağlam bir zemine oturuyor.

Araştırma Kilometre Taşları

Mekanik yorumlanabilirlik alanındaki SAE çalışmaları birkaç önemli yayınla şekillendi.

Anthropic’in 2022’de yayımladığı “Toy Models of Superposition”, küçük sinir ağlarında süperpozisyon mekanizmasını sistematik biçimde inceledi ve seyrek SAE’lerin neden işe yaradığını teorik olarak açıkladı. Boyuttan çok daha fazla özelliğin küçük girişim hataları kabul edilerek aynı uzayda kodlandığını gösterdi.

2023’te gelen “Towards Monosemanticity” ise One Layer Transformer üzerinde SAE eğitimi yaparak bir milyona yakın monosemantik özellik keşfetti. Her özellik biyolojiden spora, dilbilgisinden duyguya uzanan belirgin bir konseptle örtüşüyordu.

2024’teki “Scaling and Evaluating Sparse Autoencoders” çalışmasında ise SAE’ler daha büyük modellere, özellikle Claude Sonnet’e uygulandı; milyonlarca özelliğin ölçekli eğitimde nasıl davrandığı ve kalite değerlendirme metriklerinin ne olması gerektiği incelendi.

OpenAI ve DeepMind de benzer yöntemlerle GPT ailesi ve Gemini modelleri üzerinde çalışmalar yürüttü. Özellikle OpenAI’nın GPT-4 üzerindeki özellik haritalama denemeleri, büyük ticari modellerde de bu yaklaşımın uygulanabilir olduğunu gösterdi.

SAE’nin Sınırlılıkları

Güçlü bir araç olmakla birlikte SAE’nin gerçek kısıtları var.

Gizli boyutun 8-64 kat büyümesi eğitim süresini ve bellek kullanımını ciddi biçimde artırıyor. Büyük modellerin tüm katmanlarına SAE uygulamak hem zaman hem maliyet açısından ağır. Bu yüzden araştırmalar çoğunlukla tek bir katmana ya da belirli bir model büyüklüğüne odaklanıyor.

Eğitim boyunca hiç aktifleşmeyen gizli birimler de ortaya çıkabiliyor. Bu “ölü özellikler” (dead features) sözlük kapasitesini boşa harcıyor ve eğitim dengesizlikleri yaratıyor. Araştırmacılar bu sorunu hafifletmek için yardımcı kayıp terimleri ve yeniden başlatma stratejileri geliştiriyor.

Doğrulama meselesi ayrı bir zorluk. Bir özelliğin “Fransa” konseptini temsil ettiğini söylediğinizde bunu nasıl kanıtlıyorsunuz? İnsan değerlendirmesi öznellik içeriyor; otomatik değerlendirme ise henüz olgunlaşmış değil. Yorumlanabilir görünen bir özellik aslında başka bir gizli özelliğin proxy’si olabilir.

Dikkat edilmesi gereken son nokta: bir modelin iç temsilini anlıyor olmak onun doğru ya da güvenli davranacağı anlamına gelmiyor. Mekanik yorumlanabilirlik, güvenlik testlerinin yerini almıyor; onları tamamlıyor.

Pratikte Kullanım: Araçlar ve Başlangıç

SAE ekosistemi son iki yılda belirgin biçimde büyüdü. Başlamak için en çok kullanılan araçlar şunlar:

SAELens, EleutherAI topluluğu tarafından geliştirilen açık kaynaklı PyTorch kütüphanesi. GPT-2’den Llama’ya kadar birçok modelde önceden eğitilmiş SAE ağırlıkları sunuyor ve kendi SAE’nizi eğitmenizi kolaylaştırıyor.

Neuronpedia.org ise binlerce özelliği görsel olarak keşfedebileceğiniz interaktif bir platform. GPT-2 ve Claude modelleri için kapsamlı özellik haritaları barındırıyor; hangi girdilerin hangi birimi ateşlediğini doğrudan görebiliyorsunuz.

TransformerLens, Neel Nanda’nın mechanistic interpretability araştırmaları için geliştirdiği Python kütüphanesi. SAELens ile birlikte kullanıldığında aktivasyonları katman katman incelemeyi ve dikkat kafalarını analiz etmeyi oldukça kolaylaştırıyor.

Başlamak için en pratik yol GPT-2 Small gibi küçük bir modelde mevcut SAE ağırlıklarını yükleyip belirli girdilerin hangi özellikleri aktifleştirdiğini izlemek. Bu deneyim SAE’nin nasıl çalıştığına dair somut bir sezgi kazandırıyor.

Devre Keşfinden Yorumlanabilir Yapay Zekaya

Bireysel özellikleri bulmak başlangıç noktası. Asıl hedef devre keşfi (circuit discovery): hangi özellikler hangi görevlerde birlikte çalışıyor, bu özellikler arasında nasıl bilgi akıyor?

Bir modelin aritmetik işlemleri nasıl yaptığını anlamak istiyorsanız, yalnızca “toplama özelliği” aramak yetmiyor. Girişteki rakamları kim okuyor, bu bilgiyi kim aktarıyor, sonucu kim üretiyor? Tüm bu bileşenlerin ve aralarındaki bağlantıların haritasını çıkarmak, modelin gerçekten neyi öğrendiğini ortaya koyuyor.

Bu düzeyde bir analiz bilgi damıtma ve model sıkıştırma çalışmalarıyla da kesişiyor. Hangi devrelerin kritik, hangilerinin gereksiz olduğunu bilmek hem budama hem de verimli eğitim stratejileri için rehber oluyor.

Büyük modellerin içini tam anlayabilmek için hem daha iyi SAE eğitim tekniklerine hem de özelliklerden devrelere geçişi sistematik kılan analiz yöntemlerine ihtiyaç var. SAE bu yolda güçlü bir araç, ama tek araç değil. Kara kutu problemi çözülmeden yapay zeka güvenliği temelsiz kalır; SAE araştırmaları o temeli kurmaya çalışıyor.