Açık Ağırlıklı LLM'lerin En Kötü Durum Sınır Riskleri: GPT-OSS Üzerine Bir Çalışma
newspaper Haber schedule 5 Ağustos 2025 · 02:00 timer 2 dk okuma

Açık Ağırlıklı LLM'lerin En Kötü Durum Sınır Riskleri: GPT-OSS Üzerine Bir Çalışma

OpenAI, açık ağırlıklı büyük dil modellerinin (LLM) en kötü durum sınır risklerini değerlendirmek için kötü niyetli ince ayar (MFT) yöntemini kullandı. GPT-OSS modeli biyoloji ve siber güvenlik alanlarında test edildi ve sonuçlar, modelin mevcut açık ağırlıklı modellere kıyasla sınırlı bir yetenek artışı sağladığını gösterdi.

Giriş: Açık Ağırlıklı Modellerin Riskleri

Yapay zeka (YZ) alanındaki hızlı gelişmeler, özellikle büyük dil modellerinin (large language models - LLM) yaygınlaşmasıyla birlikte, bu teknolojilerin potansiyel risklerini de gündeme getiriyor. OpenAI, yakın zamanda yayınladığı bir çalışmada, açık ağırlıklı (open-weight) LLM'lerin en kötü durum sınır risklerini (worst-case frontier risks) değerlendirmek için yeni bir yöntem tanıttı. Bu yöntem, kötü niyetli ince ayar (malicious fine-tuning - MFT) olarak adlandırılıyor ve modelin belirli alanlarda maksimum yeteneklere ulaşmasını hedefliyor.

Kötü Niyetli İnce Ayar (MFT) Yöntemi

Araştırmacılar, GPT-OSS adlı açık ağırlıklı bir model üzerinde MFT uygulayarak, modelin biyoloji ve siber güvenlik alanlarındaki potansiyel tehlikelerini ortaya çıkarmayı amaçladı. Biyolojik risk (biorisk) için, tehdit oluşturma ile ilgili görevler seçildi ve model, web tarama özelliğiyle bir pekiştirmeli öğrenme (reinforcement learning - RL) ortamında eğitildi. Siber güvenlik riski için ise, model, capture-the-flag (CTF) zorluklarını çözmek üzere bir ajan kodlama ortamında eğitildi. Bu yaklaşım, modelin kötüye kullanım potansiyelini en üst düzeye çıkarmayı hedefliyor.

MFT Modellerinin Karşılaştırılması

Elde edilen MFT modelleri, hem açık hem de kapalı ağırlıklı LLM'lerle karşılaştırıldı. Sonuçlar, MFT uygulanmış GPT-OSS modelinin, OpenAI'ın o3 modeline kıyasla daha düşük performans gösterdiğini ortaya koydu. o3 modeli, biyolojik risk ve siber güvenlik alanlarında Preparedness High seviyesinin altında bir yetenek seviyesine sahip. Açık ağırlıklı modellerle karşılaştırıldığında ise, GPT-OSS'in biyolojik yeteneklerde marjinal bir artış sağladığı, ancak sınırı (frontier) önemli ölçüde ilerletmediği görüldü.

Sonuçlar ve Modelin Yayınlanması

Bu bulgular, OpenAI'ın GPT-OSS modelini yayınlama kararında etkili oldu. Araştırmacılar, MFT yaklaşımının, gelecekteki açık ağırlıklı modellerin potansiyel zararlarını tahmin etmede faydalı bir rehber olabileceğini umuyor. Çalışma, açık ağırlıklı modellerin risklerini değerlendirmek için sistematik bir yöntem sunarken, aynı zamanda bu modellerin mevcut tehdit seviyesinin sınırlı olduğunu da gösteriyor.

Neden Önemli?

Bu araştırma, yapay zeka güvenliği (AI safety) alanında önemli bir adım olarak değerlendiriliyor. Açık ağırlıklı modellerin potansiyel kötüye kullanımını önceden tahmin etmek, bu teknolojilerin sorumlu bir şekilde yaygınlaştırılması için kritik öneme sahip. MFT yöntemi, model geliştiricilerin ve politika yapıcıların, yeni modellerin risklerini daha iyi anlamalarına yardımcı olabilir. Ayrıca, çalışma, açık ağırlıklı modellerin şu an için sınırlı bir tehdit oluşturduğunu gösterse de, bu alandaki gelişmelerin yakından takip edilmesi gerektiğini vurguluyor.

tag OpenAI tag açık ağırlıklı model tag LLM tag kötü niyetli ince ayar tag yapay zeka güvenliği tag sınır riski