Model Watermarking (Model Filigranı)

Model Filigranı, yapay zeka modellerine gizli işaretler yerleştirerek telif hakkı ve içerik kökenini doğrulamayı sağlayan güvenlik tekniğidir.

Model Filigranı, yapay zeka modellerine veya ürettikleri içeriklere (metin, görüntü, ses) gizli bir işaret yerleştirme tekniğidir. Bu teknik; modelin kimliğini doğrulamak, fikri mülkiyet haklarını korumak ve izinsiz kullanımı tespit etmek amacıyla kullanılır. Tıpkı banknotlardaki basılı filigranlara benzer biçimde, yapay zeka filigranları olağan kullanımda fark edilmeden özel algoritmalarla tespit edilebilecek şekilde tasarlanır. Model filigranlamanın iki ana katmanı vardır. Birincisi, modelin ağırlıklarına ya da eğitim sürecine gömülen model ağırlık filigranıdır; bu yöntemle modelin kopyalandığı veya çalındığı durumlar tespit edilebilir. İkincisi ise modelin ürettiği çıktılara yerleştirilen çıktı filigranıdır; bu sayede hangi içeriğin hangi model tarafından üretildiği izlenebilir. Büyük dil modellerinde (LLM) metin filigranı genellikle token seçim olasılıklarına müdahale edilerek uygulanır. Stanford ve Maryland Üniversitesi araştırmacılarının geliştirdiği 'kırmızı-yeşil liste' yaklaşımında her token için rastgele sınıflandırma yapılır ve model yeşil listedeki tokenleri istatistiksel olarak daha sık seçer; bu eğilim sonraki analizde filigranı ortaya çıkarır. Görüntü modellerinde ise frekans alanına (DCT/DWT dönüşümleri) ya da gizli uzaya (latent space) bilgi gömme yaygındır. Stable Diffusion benzeri modellerde 'Stable Signature' ve 'Tree-Ring Watermark' gibi yöntemler oluşturulmuştur. Regülatuar açıdan model filigranı giderek daha kritik bir hal almaktadır. Avrupa Birliği Yapay Zeka Yasası (AI Act), yüksek riskli yapay zeka sistemleri için içerik kökeninin işaretlenmesini zorunlu kılmaktadır. ABD'nin 2023 Yürütme Kararı da yapay zeka şirketlerini su işareti standartları geliştirmeye yönelik çalışmalar yapmaya teşvik etmektedir. Bu gelişmeler, model filigranını araştırmadan endüstriyel zorunluluğa dönüştürmektedir.

settings_suggest Model Filigranı Nasıl Çalışır?

Model filigranı, iki farklı düzeyde uygulanabilir: modelin parametrelerine (ağırlıklarına) gömme ve modelin çıktılarına gömme. Ağırlık filigranında, eğitim süreci sırasında modele belirli tetikleyici girdilere (trigger) özel, önceden belirlenen çıktılar üretmesi öğretilir. Bu gizli davranış, üçüncü taraflarca bilinmediğinden modelin klonlanıp klonlanmadığı doğrulanabilir. Çıktı filigranında ise model çalışırken ürettiği her içeriğe istatistiksel bir imza ekler. Metin için token seçim olasılıkları hafifçe önyargılı hale getirilir; görüntü için insan gözünün fark etmediği yüksek frekanslı bileşenler değiştirilir. Filigran tespiti için özel bir dedektör modeli veya istatistiksel hipotez testi kullanılır.

Filigran Yöntem Kategorileri

text_fields LLM Metin Filigranı

Token üretim olasılıkları kırmızı-yeşil listeleme yöntemiyle hafifçe önyargılı hale getirilir. İnsan okuyucu metni normal bulur, ancak dedektör istatistiksel sapmaları tespit eder.

photo_filter Görüntü Frekans Filigranı

DCT veya DWT dönüşümleriyle görüntünün frekans bileşenlerine gizli bilgi gömülür. JPEG sıkıştırması ve yeniden boyutlandırmaya karşı dayanıklı yöntemler mevcuttur.

psychology Latent Space Filigranı

Stable Diffusion gibi modellerде gizli uzayın başlangıç noktasına (seed veya latent) filigran gömülür. Tree-Ring ve Stable Signature bu kategoride öncü yöntemlerdir.

lock Ağırlık Filigranı

Modelin parametrelerine özel bir imza gömülür; belirli tetikleyici girdilerde önceden tanımlanmış çıktılar üretilir. Model hırsızlığını tespit etmek için kullanılır.

apps Kullanım Senaryoları

  • check_circle Telif hakkı koruması: Model sağlayıcıları, modellerinin üçüncü taraflarca izinsiz kopyalanıp dağıtılıp dağıtılmadığını filigran doğrulamasıyla tespit edebilir.
  • check_circle Deepfake ve dezenformasyon tespiti: Yapay zeka ile üretilmiş görsel veya videonun kaynağı, içerikteki filigran sayesinde hangi modelden üretildiği belirlenerek doğrulanabilir.
  • check_circle Regülatuar uyum: AB Yapay Zeka Yasası kapsamında yüksek riskli AI üreticileri, içeriklerini 'yapay zeka üretimi' olarak işaretlemek zorundadır.
  • check_circle Model versiyonlama ve izleme: Kuruluşlar, hangi model sürümünün hangi çıktıyı ürettiğini filigran aracılığıyla takip edebilir ve sorunlu içerikleri kaynağına kadar izleyebilir.

quiz Sıkça Sorulan Sorular

  • check_circle Model filigranı çıktı kalitesini etkiler mi?: İyi tasarlanmış filigran yöntemlerinde kalite kaybı minimum düzeydedir. Metin filigranında perplexity (şaşkınlık skoru) hafifçe artabilir; görüntü filigranında ise PSNR değerinde ihmal edilebilir bir düşüş gözlemlenir.
  • check_circle Filigran silinebilir mi?: Teorik olarak saldırı mümkündür; yeniden oluşturma saldırıları (regeneration attacks) veya model fine-tuning filigranı zayıflatabilir. Buna karşı dayanıklı (robust) filigran yöntemleri aktif araştırma konusudur.
  • check_circle Açık kaynak modeller de filigranlanabilir mi?: Evet; Llama, Mistral gibi açık kaynak modeller için ağırlık filigranı uygulanabilir. Ancak kullanıcı modeli serbestçe değiştirebildiğinden çıktı filigranını kaldırması daha kolaydır.
  • check_circle Filigran ile dijital imza arasındaki fark nedir?: Dijital imza içeriğin bütünlüğünü doğrulamak için kullanılır ve içeriğe eklenen açık bir veridir. Filigran ise içerik içine gizlenmiş olup içerik değişse de tespit edilebilecek şekilde tasarlanmıştır.