OpenAI'den Yaşam Bilimleri İçin Yeni Yapay Zeka Testi: LifeSciBench
newspaper Haber schedule 18 Haziran 2026 · 14:12 timer 3 dk okuma

OpenAI'den Yaşam Bilimleri İçin Yeni Yapay Zeka Testi: LifeSciBench

OpenAI, yaşam bilimleri araştırmalarında yapay zeka sistemlerinin gerçek dünya görevlerindeki performansını ölçmek için LifeSciBench adlı yeni bir kıyaslama aracı tanıttı. 750 uzman tarafından hazırlanan görevlerle, yapay zekanın bilimsel akıl yürütme ve karar verme becerileri test ediliyor.

LifeSciBench Nedir?

OpenAI, yapay zeka (YZ) sistemlerinin yaşam bilimleri araştırmalarındaki yeteneklerini daha gerçekçi bir şekilde değerlendirmek için LifeSciBench adlı yeni bir kıyaslama aracı (benchmark) yayınladı. Mevcut testler genellikle dar alanlara veya izole becerilere odaklanırken, LifeSciBench, araştırmacıların karşılaştığı karmaşık, çok adımlı ve belirsizlik içeren görevleri kapsıyor. Kıyaslama, ilaç keşfi ve biyoteknoloji alanında deneyimli, doktora seviyesinde 173 bilim insanı tarafından hazırlanan 750 görevden oluşuyor. Her görev, bir araştırmacının bilgili bir iş arkadaşına yöneltebileceği türden bir istek şeklinde yapılandırılmış: bilimsel bir yönlendirme, ilgili bağlam veya eserler (artifact) ve serbest metin yanıtı. Görevler, yedi farklı iş akışı (workflow) ve yedi biyolojik alanı kapsıyor.

LifeSciBench Neyi Ölçüyor?

LifeSciBench, YZ sistemlerinin yalnızca biyoloji sorularını yanıtlamasını değil, gerçek yaşam bilimleri araştırma görevlerini destekleyip destekleyemediğini ölçüyor. Kıyaslama taksonomisi, uygulamalı araştırmalarda en sık kullanılan iş akışlarına dayanıyor. Bunlar:

  • Kanıt yönetimi (evidence handling): Makalelerden, şekillerden, tablolardan ve deneysel kayıtlardan bilimsel kanıtları çıkarma, birleştirme ve denetleme.
  • Analiz (analysis): Verileri yorumlama ve anlamlı sonuçlar çıkarma.
  • Tasarım ve optimizasyon (design and optimization): Deney tasarımı ve optimizasyonu.
  • Bilimsel akıl yürütme (scientific reasoning): Karmaşık problemleri mantıksal adımlarla çözme.
  • Doğrulama ve operasyonlar (validation and operations): Deneysel yöntemlerin geçerliliğini değerlendirme.
  • Çeviri (translation): Temel bilimsel bulguları klinik uygulamalara dönüştürme (bench-to-bedside).
  • Bilimsel iletişim (scientific communication): Bulguları uzmanlara uygun şekilde açıklama.

Her görev, uzmanlar tarafından yazılmış ayrıntılı bir derecelendirme rubriği (rubric) ile değerlendiriliyor. Rubrikler, yalnızca doğru nihai yanıtı değil, aynı zamanda yanıtın bilimsel geçerliliğini, detay seviyesini, gerekçelendirmeyi ve uyarıları da kontrol ediyor. Toplamda 19.020 rubrik kriteri bulunuyor (görev başına ortalama 25 kriter).

Yapay Zeka Sistemlerinin Performansı

LifeSciBench sonuçları, öncü modellerin (frontier models) bilimsel sentez, iletişim ve yapılandırılmış yorumlama gerektiren görevlerde en güçlü olduğunu gösteriyor. Örneğin, OpenAI'nin yeni modeli GPT-Rosalind, bir önceki model GPT-5.5'e kıyasla genel başarı oranını %25,7'den %36,1'e yükseltti. En büyük ilerleme, Bilimsel İletişim (%56,3'ten %71,1'e) ve Çeviri (%36,8'den %57,7'ye) alanlarında görüldü. Bu, modellerin kanıtları organize etme ve uzmanlara yönelik açıklamalar üretme becerilerinin hızla geliştiğini gösteriyor.

Bununla birlikte, modeller özellikle eser (artifact) kullanımı, tasarım ve operasyonel kısıtlamalar içeren görevlerde zorlanıyor. Tasarım, Optimizasyon ve Tahmin iş akışında başarı oranı %30,7'de kalırken, Analiz iş akışında %30,3. Eser kullanımı belirgin bir zayıflık: GPT-Rosalind'in metin tabanlı görevlerde başarı oranı %45,1 iken, eser veya URL içeren görevlerde %28,1'e düşüyor. Kesin sayısal veya dizi çıktısı gerektiren görevlerde başarı oranları daha da düşük: sayısal görevlerde %14,8, dizi/ yapı görevlerinde %24,0. Bu, modellerin karmaşık şekillerden veya büyük dizi dosyalarından bilgi çıkarma ve bunu yanıta entegre etme konusunda yetersiz kaldığını gösteriyor.

LifeSciBench'in Geçerliliği ve Sınırlamaları

LifeSciBench, 453 bağımsız uzman tarafından doğrulandı. Uzmanların %97'si doktora derecesine sahip ve ortalama 12 yıl saha deneyimi var. Her kategoride uzman görüş birliği %96'nın üzerinde çıktı. Bu, görevlerin bilimsel olarak sağlam ve temsili olduğunu teyit ediyor.

Ancak kıyaslamanın bazı sınırlamaları var. LifeSciBench, kendi kendine yeten görevlere odaklanıyor ve gerçek araştırmanın yinelemeli doğasını (hipotez revizyonu, takip deneyleri) tam olarak yansıtmıyor. Ayrıca, tüm bilimsel uzmanlık alanlarını kapsamıyor. Bu nedenle, güçlü performans, gerçek dünyadaki araştırma etkisinin doğrudan bir ölçüsü olarak değil, gerçekçi görev düzeyinde yetenek kanıtı olarak yorumlanmalı.

Neden Önemli?

LifeSciBench, yapay zekanın yaşam bilimleri araştırmalarındaki potansiyelini değerlendirmede önemli bir adım. Mevcut kıyaslamalar genellikle çoktan seçmeli sorular veya basit tahmin problemleriyle sınırlıyken, LifeSciBench, araştırmacıların karşılaştığı belirsizlik, eksik kanıt ve çok adımlı akıl yürütme gibi gerçek dünya zorluklarını test ediyor. Bu, YZ sistemlerinin ilaç keşfi, kişiselleştirilmiş tıp ve biyoteknoloji gibi alanlarda ne kadar yararlı olabileceğini anlamak için kritik. OpenAI, bir sonraki adımın kıyaslama performansını canlı araştırma ortamlarındaki dağıtım çalışmalarıyla ilişkilendirmek olduğunu belirtiyor. Bu sayede YZ'nin araştırma süreçlerini hızlandırıp hızlandırmadığı veya Ar-Ge sonuçlarını iyileştirip iyileştirmediği ölçülebilecek.

tag OpenAI tag LifeSciBench tag yapay zeka tag yaşam bilimleri tag kıyaslama tag dil modeli