Model Watermarking (Model Filigranı)
Model Filigranı, yapay zeka modellerine veya ürettikleri içeriklere (metin, görüntü, ses) gizli bir işaret yerleştirme tekniğidir. Bu teknik; modelin kimliğini doğrulamak, fikri mülkiyet haklarını korumak ve izinsiz kullanımı tespit etmek amacıyla kullanılır. Tıpkı banknotlardaki basılı filigranlara benzer biçimde, yapay zeka filigranları olağan kullanımda fark edilmeden özel algoritmalarla tespit edilebilecek şekilde tasarlanır.
Model filigranlamanın iki ana katmanı vardır. Birincisi, modelin ağırlıklarına ya da eğitim sürecine gömülen model ağırlık filigranıdır; bu yöntemle modelin kopyalandığı veya çalındığı durumlar tespit edilebilir. İkincisi ise modelin ürettiği çıktılara yerleştirilen çıktı filigranıdır; bu sayede hangi içeriğin hangi model tarafından üretildiği izlenebilir.
Büyük dil modellerinde (LLM) metin filigranı genellikle token seçim olasılıklarına müdahale edilerek uygulanır. Stanford ve Maryland Üniversitesi araştırmacılarının geliştirdiği 'kırmızı-yeşil liste' yaklaşımında her token için rastgele sınıflandırma yapılır ve model yeşil listedeki tokenleri istatistiksel olarak daha sık seçer; bu eğilim sonraki analizde filigranı ortaya çıkarır.
Görüntü modellerinde ise frekans alanına (DCT/DWT dönüşümleri) ya da gizli uzaya (latent space) bilgi gömme yaygındır. Stable Diffusion benzeri modellerde 'Stable Signature' ve 'Tree-Ring Watermark' gibi yöntemler oluşturulmuştur.
Regülatuar açıdan model filigranı giderek daha kritik bir hal almaktadır. Avrupa Birliği Yapay Zeka Yasası (AI Act), yüksek riskli yapay zeka sistemleri için içerik kökeninin işaretlenmesini zorunlu kılmaktadır. ABD'nin 2023 Yürütme Kararı da yapay zeka şirketlerini su işareti standartları geliştirmeye yönelik çalışmalar yapmaya teşvik etmektedir. Bu gelişmeler, model filigranını araştırmadan endüstriyel zorunluluğa dönüştürmektedir.