memory
OpenAI Ücretli Yayın: Nisan 2025

o3

OpenAI'nin 2025 yılında tanıttığı akıl yürütme (reasoning) modeli. Yanıt üretmeden önce dahili 'düşünme' adımları gerçekleştirerek matematik, kodlama ve bilim alanlarında standart modelleri geride bırakır. Yüksek hesaplama maliyeti ve gecikme, özel kullanım senaryolarını hedefler.

update Son güncelleme:

memory Bağlam
200K token
output Maks. çıkış
100.000 token
payments Giriş fiyatı
$10,00
api API
check_circleMevcut

balance Güçlü ve Zayıf Yönler

check_circle Güçlü Yönler
  • check Matematik, fizik ve kimya sorunlarında sektör lideri
  • check Kodlama yarışması düzeyinde problem çözme
  • check Çok adımlı mantık zinciri gerektiren görevler
  • check 100K çıkış token limiti — uzun adım adım çözümler
warning Zayıf Yönler
  • cancel Yüksek maliyet — GPT-4o'nun 4x+ fiyatı
  • cancel Yavaş yanıt süresi — düşünme adımları gecikme yaratır
  • cancel Basit sorular için aşırı güçlü ve gereksiz pahalı
  • cancel Görsel analiz yetenekleri GPT-4o'nun gerisinde

leaderboard Benchmark Skorları

Test Skor
AIME 2025 emoji_events Sınıfının en iyisi
96,7%
SWE-bench Verified
71,7%
GPQA Diamond
87,7
HumanEval
96,0

o3, OpenAI’nin “System 2 thinking” yaklaşımı olarak tanımladığı model neslidir. Geleneksel dil modellerinin anlık yanıt (System 1) yaklaşımının aksine, o3 soruları analiz etmek için zaman ayırır.

Nasıl Çalışır?

o3, her soruya yanıt vermeden önce dahili bir “düşünme” süreci (chain-of-thought reasoning) geçirir. Bu süreç kullanıcıya gösterilmez; model arka planda alternatifleri değerlendirir, hataları tespit eder ve yeniden dener. Sonuç olarak daha doğru ama daha yavaş ve pahalı yanıtlar üretilir.

Bu yaklaşım, reasoning model sınıfının temel felsefesidir: test-time compute (çıkarım süresi hesaplaması) artırılarak doğruluk yükseltilir. Akıl yürüten AI modelleri hakkında kapsamlı inceleme için bu makaleye bakın.

Bağlam Penceresi Gerçekte Ne İşe Yarar

o3’ün 200.000 token bağlam penceresi, yaklaşık 150.000 kelime veya 500 sayfalık bir belgeye karşılık gelir. Claude Sonnet 4.6 ile aynı büyüklükte; GPT-4o’nun 128K’sından %56 daha büyük.

Reasoning model bağlamında bu kapasite özellikle şu görevlerde değerlidir:

  • Büyük kod tabanı hata ayıklama: Tüm proje birden fazla dosyayla tek promptta analiz edilebilir.
  • Karmaşık çok adımlı matematik: Uzun ispat zincirleri veya büyük problem setleri tek bağlamda tutulabilir.
  • Akademik araştırma sentezi: Uzun makale + referanslar birlikte analiz edilebilir.

Not: o3’ün düşünme tokenları da bağlam penceresinden tüketir; çok uzun bağlamlarla birleştiğinde reasoning token’lar maliyeti beklenenden yüksek çıkarabilir.

Benchmark Skorları Nasıl Okunur

AIME 2025: 96,7% — Amerikan Matematik Olimpiyatı (AIME) soruları, en zorlu lise matematik soruları arasındadır. %96,7 skor, o3’ün bu testlerin neredeyse tamamını çözebileceği anlamına gelir. Karşılaştırma: GPT-4o AIME’de yaklaşık %10-15, Gemini 2.5 Pro ise reasoning modunda ~%70-80 seviyesindedir.

SWE-bench Verified: 71,7% — Gerçek GitHub issue’larını çözme. %71,7 ile Claude Sonnet 4.6’nın (%72,7) yakınında; iki model bu alanda benzer pratik yeteneklere sahip. Gündelik kodlama için maliyet farkı göz önünde bulundurulduğunda Claude daha ekonomik.

GPQA Diamond: 87,7 — Doktora düzeyi fizik, kimya, biyoloji soruları. 87,7, modelin doktora uzman düzeyini geçtiğini gösterir; Gemini 2.5 Pro’nun (84,0) üzerinde.

HumanEval: 96,0 — Python kod üretiminde son derece yüksek skor; rutin kodlama görevlerinin büyük çoğunluğu için güvenilir. Ancak bu testlerin yüksek maliyeti (o3 fiyatlandırmasında) basit kodlama için gereksiz olabilir.

Türkçe Performans

o3, temel olarak İngilizce reasoning görevlerine optimize edilmiş bir modeldir. Türkçe metin anlama yetenekleri GPT-4o ile benzerdir; ancak Türkçe içerik üretimi, çeviri veya gündelik Türkçe asistan görevleri için o3’ün 4-10 kat yüksek maliyeti genellikle gerekçesizdir.

Türkçe akademik performans karşılaştırması için HuggingFace TR-MMLU liderlik tablosuna bakabilirsiniz. Türkçe dil görevlerinde GPT-4o veya Claude Sonnet 4.6 hem daha ekonomik hem de genellikle eşdeğer sonuç verir.

Kimler İçin Uygun

Kullanıcı ProfiliNeden o3
Matematikçi / fizikçiAIME %96,7; olimpiyat düzeyi sorunlar
Rekabetçi programlamaHumanEval %96,0; algoritma yarışmaları
Doktora araştırmacısıGPQA Diamond %87,7; bilim sorunları
Karmaşık hata ayıklamaBüyük sistemlerde derin hata analizi
Finansal/hukuki analizÇok adımlı çıkarım gerektiren belgeler

Kullanmayın: gündelik sohbet, basit metin özetleme, yaratıcı içerik, standart soru-cevap. Bu görevler için GPT-4o veya Claude Sonnet 4.6 çok daha ekonomik.

Nasıl Erişilir

ChatGPT Pro:

  1. ChatGPT Pro ($200/ay) planına geçin.
  2. Model seçici menüsünden o3’ü seçin.
  3. Aylık kullanım kotası dahilinde sınırsız erişim.

API (geliştiriciler için):

  1. platform.openai.com üzerinden API anahtarı alın.
  2. Model kimliği: o3 veya o3-2025-04
  3. reasoning_effort parametresi: low | medium | high (maliyet/doğruluk dengesi)
  4. SDK: pip install openai veya npm install openai

Fiyatlandırma

KullanımFiyat
Giriş (input)$10,00 / 1M token
Çıkış (output)$40,00 / 1M token
Reasoning tokensGiriş fiyatıyla aynı
Batch API girişi$5,00 / 1M token

Karmaşık bir problemde reasoning token’lar görünür çıktının 3-5 katına ulaşabilir.

API Maliyet Örneği

Bir matematik problemi çözümü varsayalım: 10K giriş + 50K reasoning + 5K çıkış token:

  • Giriş: 10.000 × $10/1M = $0,10
  • Reasoning: 50.000 × $10/1M = $0,50
  • Çıkış: 5.000 × $40/1M = $0,20
  • Toplam: $0,80 (aynı görev GPT-4o’da ~$0,25 olur)

Yüksek hacimli kullanımda Batch API ($5/$20/1M) tercih edin. Maliyet karşılaştırması için Token Hesaplayıcı’yı kullanın.

Ne Zaman Kullanılmalı?

Kullanın: olimpiyat matematik soruları, karmaşık algoritmik problemler, doktora düzeyi bilim, büyük kod tabanı analizi, uzun çok adımlı çıkarım zincirleri.

Kullanmayın: gündelik sohbet, metin özetleme, yaratıcı içerik, basit sorular — bunlar için GPT-4o veya Claude Sonnet 4.6 daha uygun ve çok daha ucuz. Ajan iş akışları için ajan çerçevelerini de inceleyin.

Rakip Modeller

Reasoning kategorisinde Gemini 2.5 Pro’nun “thinking mode”u ve Anthropic’in Claude Opus 4.7 rakip olarak öne çıkar. Maliyet odaklı reasoning için o4-mini ve DeepSeek R1 de değerlendirilebilir. Karşılaştırma için Karşılaştırma bölümüne bakın.

Kaynaklar

help Sık Sorulan Sorular

o3 modeli nedir ve neden özel? expand_more
o3, OpenAI'nin 'reasoning' (akıl yürütme) model serisinin parçasıdır. Standart dil modellerinden farkı: yanıt üretmeden önce soruyu analiz etmek için dahili düşünme adımları (chain-of-thought) gerçekleştirir. Bu yaklaşım matematik, kodlama ve bilim sorunlarında önemli performans artışı sağlar; ancak hesaplama maliyeti ve yanıt süresi de artar.
o3 ne zaman kullanılmalı? expand_more
o3, standart GPT-4o'nun yetersiz kaldığı özel görevler için idealdir: olimpiyat matematik soruları, karmaşık algoritmik problem çözme, doktora düzeyi bilim soruları, büyük kod tabanlarında hata ayıklama. Gündelik metin yazma, özetleme veya yaratıcı içerik için GPT-4o veya Claude Sonnet 4.6 daha uygun maliyetli.
o3 ile o4-mini farkı nedir? expand_more
o4-mini, o3'ün daha küçük ve ekonomik versiyonudur. Matematik ve kodlamada o3'e yakın performans sergilerken maliyeti önemli ölçüde düşüktür ($1,10/$4,40 vs $10/$40 per 1M token). Yüksek hacimli reasoning görevleri için o4-mini tercih edilir; maksimum doğruluk gerektiren durumlarda o3 öne çıkar.
o3'ün reasoning token'ları ne anlama geliyor? expand_more
Yanıt üretmeden önce o3, dahili 'düşünme' adımları çalıştırır. Bu adımlar reasoning token olarak adlandırılır ve giriş tokenları gibi ücretlendirilir. Çok adımlı bir matematik problemi çözümünde bu thinking token'lar görünür çıktıdan birkaç kat fazla olabilir. API'de `reasoning_effort` parametresiyle düşünme derinliği (low/medium/high) ayarlanabilir.
o3 fiyatı nedir? expand_more
o3 API fiyatlandırması: giriş $10,00/1M token, çıkış $40,00/1M token. Reasoning token'lar giriş fiyatıyla ücretlendirilir. Batch API ile %50 indirim: $5,00/$20,00/1M. Karmaşık bir problemde reasoning token'lar görünür çıktının 3-5 katına ulaşabilir — gerçek maliyet beklenenden yüksek olabilir. Tahmini hesaplama için Token Hesaplayıcı'yı kullanın.
o3 Türkçe biliyor mu? expand_more
o3, temel olarak reasoning (akıl yürütme) görevlerine optimize edilmiş bir modeldir. Türkçe metin anlama ve üretim yetenekleri GPT-4o ile benzer düzeydedir; ancak Türkçe dil görevleri için o3'ün yüksek maliyeti genellikle gerekçesizdir. Türkçe içerik üretimi için GPT-4o veya Claude Sonnet 4.6 daha ekonomik seçeneklerdir. Türkçe benchmark karşılaştırması için HuggingFace TR-MMLU tablosuna bakın.
o3 ile Gemini 2.5 Pro thinking modu karşılaştırması nasıl? expand_more
Her ikisi de reasoning yaklaşımı kullanır, ancak farklı güçlü yönlere sahiptir. o3, AIME 2025'te %96,7 ile matematik olympiad seviyesinde öne çıkar; GPQA Diamond'da ise Gemini 2.5 Pro (84,0) karşısında 87,7 ile üstündür. Gemini 2.5 Pro ise 1M token bağlamı, native multimodal ve daha düşük maliyetiyle öne çıkar. Detaylı karşılaştırma için akıl yürüten AI modelleri makalesi'ne bakın.
o3 API nasıl kullanılır? expand_more
OpenAI API üzerinden: model kimliği `o3` veya `o3-2025-04`. `reasoning_effort` parametresi low/medium/high değerleri alabilir — high en doğruluğu, low en hızı temsil eder. SDK: `pip install openai` veya `npm install openai`. API erişimi için platform.openai.com üzerinden API anahtarı alın; o3 şu an ChatGPT Pro planı gerektirebilir.

history Sürüm Geçmişi

Sürüm notları içerik ekibimiz tarafından doldurulduğunda burada listelenecek.

source Kaynaklar

Benchmark ve fiyat kaynakları içerik ekibi tarafından eklendiğinde burada listelenecek.