o3
OpenAI'nin 2025 yılında tanıttığı akıl yürütme (reasoning) modeli. Yanıt üretmeden önce dahili 'düşünme' adımları gerçekleştirerek matematik, kodlama ve bilim alanlarında standart modelleri geride bırakır. Yüksek hesaplama maliyeti ve gecikme, özel kullanım senaryolarını hedefler.
update Son güncelleme:
balance Güçlü ve Zayıf Yönler
- check Matematik, fizik ve kimya sorunlarında sektör lideri
- check Kodlama yarışması düzeyinde problem çözme
- check Çok adımlı mantık zinciri gerektiren görevler
- check 100K çıkış token limiti — uzun adım adım çözümler
- cancel Yüksek maliyet — GPT-4o'nun 4x+ fiyatı
- cancel Yavaş yanıt süresi — düşünme adımları gecikme yaratır
- cancel Basit sorular için aşırı güçlü ve gereksiz pahalı
- cancel Görsel analiz yetenekleri GPT-4o'nun gerisinde
leaderboard Benchmark Skorları
| Test | Skor |
|---|---|
| AIME 2025 emoji_events
Sınıfının en iyisi
| 96,7% |
| SWE-bench Verified | 71,7% |
| GPQA Diamond | 87,7 |
| HumanEval | 96,0 |
o3, OpenAI’nin “System 2 thinking” yaklaşımı olarak tanımladığı model neslidir. Geleneksel dil modellerinin anlık yanıt (System 1) yaklaşımının aksine, o3 soruları analiz etmek için zaman ayırır.
Nasıl Çalışır?
o3, her soruya yanıt vermeden önce dahili bir “düşünme” süreci (chain-of-thought reasoning) geçirir. Bu süreç kullanıcıya gösterilmez; model arka planda alternatifleri değerlendirir, hataları tespit eder ve yeniden dener. Sonuç olarak daha doğru ama daha yavaş ve pahalı yanıtlar üretilir.
Bu yaklaşım, reasoning model sınıfının temel felsefesidir: test-time compute (çıkarım süresi hesaplaması) artırılarak doğruluk yükseltilir. Akıl yürüten AI modelleri hakkında kapsamlı inceleme için bu makaleye bakın.
Bağlam Penceresi Gerçekte Ne İşe Yarar
o3’ün 200.000 token bağlam penceresi, yaklaşık 150.000 kelime veya 500 sayfalık bir belgeye karşılık gelir. Claude Sonnet 4.6 ile aynı büyüklükte; GPT-4o’nun 128K’sından %56 daha büyük.
Reasoning model bağlamında bu kapasite özellikle şu görevlerde değerlidir:
- Büyük kod tabanı hata ayıklama: Tüm proje birden fazla dosyayla tek promptta analiz edilebilir.
- Karmaşık çok adımlı matematik: Uzun ispat zincirleri veya büyük problem setleri tek bağlamda tutulabilir.
- Akademik araştırma sentezi: Uzun makale + referanslar birlikte analiz edilebilir.
Not: o3’ün düşünme tokenları da bağlam penceresinden tüketir; çok uzun bağlamlarla birleştiğinde reasoning token’lar maliyeti beklenenden yüksek çıkarabilir.
Benchmark Skorları Nasıl Okunur
AIME 2025: 96,7% — Amerikan Matematik Olimpiyatı (AIME) soruları, en zorlu lise matematik soruları arasındadır. %96,7 skor, o3’ün bu testlerin neredeyse tamamını çözebileceği anlamına gelir. Karşılaştırma: GPT-4o AIME’de yaklaşık %10-15, Gemini 2.5 Pro ise reasoning modunda ~%70-80 seviyesindedir.
SWE-bench Verified: 71,7% — Gerçek GitHub issue’larını çözme. %71,7 ile Claude Sonnet 4.6’nın (%72,7) yakınında; iki model bu alanda benzer pratik yeteneklere sahip. Gündelik kodlama için maliyet farkı göz önünde bulundurulduğunda Claude daha ekonomik.
GPQA Diamond: 87,7 — Doktora düzeyi fizik, kimya, biyoloji soruları. 87,7, modelin doktora uzman düzeyini geçtiğini gösterir; Gemini 2.5 Pro’nun (84,0) üzerinde.
HumanEval: 96,0 — Python kod üretiminde son derece yüksek skor; rutin kodlama görevlerinin büyük çoğunluğu için güvenilir. Ancak bu testlerin yüksek maliyeti (o3 fiyatlandırmasında) basit kodlama için gereksiz olabilir.
Türkçe Performans
o3, temel olarak İngilizce reasoning görevlerine optimize edilmiş bir modeldir. Türkçe metin anlama yetenekleri GPT-4o ile benzerdir; ancak Türkçe içerik üretimi, çeviri veya gündelik Türkçe asistan görevleri için o3’ün 4-10 kat yüksek maliyeti genellikle gerekçesizdir.
Türkçe akademik performans karşılaştırması için HuggingFace TR-MMLU liderlik tablosuna bakabilirsiniz. Türkçe dil görevlerinde GPT-4o veya Claude Sonnet 4.6 hem daha ekonomik hem de genellikle eşdeğer sonuç verir.
Kimler İçin Uygun
| Kullanıcı Profili | Neden o3 |
|---|---|
| Matematikçi / fizikçi | AIME %96,7; olimpiyat düzeyi sorunlar |
| Rekabetçi programlama | HumanEval %96,0; algoritma yarışmaları |
| Doktora araştırmacısı | GPQA Diamond %87,7; bilim sorunları |
| Karmaşık hata ayıklama | Büyük sistemlerde derin hata analizi |
| Finansal/hukuki analiz | Çok adımlı çıkarım gerektiren belgeler |
Kullanmayın: gündelik sohbet, basit metin özetleme, yaratıcı içerik, standart soru-cevap. Bu görevler için GPT-4o veya Claude Sonnet 4.6 çok daha ekonomik.
Nasıl Erişilir
ChatGPT Pro:
- ChatGPT Pro ($200/ay) planına geçin.
- Model seçici menüsünden o3’ü seçin.
- Aylık kullanım kotası dahilinde sınırsız erişim.
API (geliştiriciler için):
- platform.openai.com üzerinden API anahtarı alın.
- Model kimliği:
o3veyao3-2025-04 reasoning_effortparametresi:low|medium|high(maliyet/doğruluk dengesi)- SDK:
pip install openaiveyanpm install openai
Fiyatlandırma
| Kullanım | Fiyat |
|---|---|
| Giriş (input) | $10,00 / 1M token |
| Çıkış (output) | $40,00 / 1M token |
| Reasoning tokens | Giriş fiyatıyla aynı |
| Batch API girişi | $5,00 / 1M token |
Karmaşık bir problemde reasoning token’lar görünür çıktının 3-5 katına ulaşabilir.
API Maliyet Örneği
Bir matematik problemi çözümü varsayalım: 10K giriş + 50K reasoning + 5K çıkış token:
- Giriş: 10.000 × $10/1M = $0,10
- Reasoning: 50.000 × $10/1M = $0,50
- Çıkış: 5.000 × $40/1M = $0,20
- Toplam: $0,80 (aynı görev GPT-4o’da ~$0,25 olur)
Yüksek hacimli kullanımda Batch API ($5/$20/1M) tercih edin. Maliyet karşılaştırması için Token Hesaplayıcı’yı kullanın.
Ne Zaman Kullanılmalı?
Kullanın: olimpiyat matematik soruları, karmaşık algoritmik problemler, doktora düzeyi bilim, büyük kod tabanı analizi, uzun çok adımlı çıkarım zincirleri.
Kullanmayın: gündelik sohbet, metin özetleme, yaratıcı içerik, basit sorular — bunlar için GPT-4o veya Claude Sonnet 4.6 daha uygun ve çok daha ucuz. Ajan iş akışları için ajan çerçevelerini de inceleyin.
Rakip Modeller
Reasoning kategorisinde Gemini 2.5 Pro’nun “thinking mode”u ve Anthropic’in Claude Opus 4.7 rakip olarak öne çıkar. Maliyet odaklı reasoning için o4-mini ve DeepSeek R1 de değerlendirilebilir. Karşılaştırma için Karşılaştırma bölümüne bakın.
Kaynaklar
- OpenAI — o3 Resmi Sayfası — Teknik özellikler ve API dokümantasyonu
- Akıl Yürüten AI Modelleri: o3, DeepSeek R1 ve Test-Time Compute — Reasoning modelleri kapsamlı Türkçe inceleme
- HuggingFace TR-MMLU Liderlik Tablosu — Türkçe MMLU benchmark karşılaştırması
- arXiv: Yapay Zeka Türkçe MMLU — TR-MMLU akademik referans
help Sık Sorulan Sorular
o3 modeli nedir ve neden özel? expand_more
o3 ne zaman kullanılmalı? expand_more
o3 ile o4-mini farkı nedir? expand_more
o3'ün reasoning token'ları ne anlama geliyor? expand_more
o3 fiyatı nedir? expand_more
o3 Türkçe biliyor mu? expand_more
o3 ile Gemini 2.5 Pro thinking modu karşılaştırması nasıl? expand_more
o3 API nasıl kullanılır? expand_more
history Sürüm Geçmişi
Sürüm notları içerik ekibimiz tarafından doldurulduğunda burada listelenecek.
source Kaynaklar
Benchmark ve fiyat kaynakları içerik ekibi tarafından eklendiğinde burada listelenecek.