Chain of Thought (CoT) Prompting Nedir? LLM Akıl Yürütme

list_altİçindekilerexpand_more

01Klasik prompting neden tek başına yetersiz kaldı
02Chain of Thought (Few-Shot CoT)
03Zero-Shot CoT — “Adım adım düşünelim”
04Self-Consistency — Birden fazla akıl yürütme + oylama
05Tree of Thoughts (ToT) — Akıl yürütmeyi ağaca dönüştür
06ReAct — Reasoning + Acting
07Pratik prompt örnekleri
08Matematik problemi (Zero-shot CoT)
09Mantık problemi (Few-shot CoT)
10Karmaşık karar (Self-Consistency)
11Karar + araç kullanımı (ReAct döngüsü)
12CoT ne zaman işe yaramaz
13Üretimde kullanım: pratik notlar
14Sonuç

Chain of Thought (CoT) prompting — LLM'in adım adım akıl yürütmesini gösteren editorial illustration

GPT‑4’e “Bir mağazada 23 elma var, 20’sini sattıktan sonra 6 elma daha aldılarsa kaç elma var?” diye sorduğunuzda doğru cevap (9) gelir. Aynı modele 2022 öncesi başka bir mimaride sorulsaydı çoğu zaman yanlış cevap çıkıyordu. Aradaki fark sadece model büyüklüğü değil; modele nasıl sorduğunuzdu.

Chain of Thought (CoT) prompting, bir LLM’e cevabı doğrudan vermek yerine ara akıl yürütme adımlarını yazmasını söyleyen prompt mühendisliği tekniğidir. 2022’de Google Research ekibinin yayınladığı orijinal makale bu basit eklemeyi gösterdi: büyük modellerde matematik, sembolik mantık ve commonsense reasoning skorları büyük sıçradı. Bugün CoT, üretimde çalışan reasoning sistemlerinin temel taşı; ardından gelen Zero‑shot CoT, Self‑Consistency, Tree of Thoughts ve ReAct gibi türevler aynı fikrin uzantılarıdır.

Klasik prompting neden tek başına yetersiz kaldı

Standart prompt’ta soruyu verirsiniz, model cevabı kestirir. Bu, özellikle çok adımlı problemlerde sorun çıkarır. Modelin bir token üretirken bir sonrakini tahmin etmesi gerekir; ara hesaplama için “tampon” yoktur. Aşağıdaki gibi bir prompt’ta GPT‑3.5 çoğu zaman yanlış cevap verirdi:

Soru: Roger'da 5 tenis topu var. 2 paket daha aldı. Her pakette 3 top var.
Şimdi kaç topu var?

Cevap: 11

Buradaki “11” cevap doğru ama model genelde 8, 9 ya da 12 gibi yanlış sayıları da aynı güvenle üretirdi. Sebep basit: tek bir tahminde hem çarpmayı (2 × 3) hem toplamayı (5 + 6) yapmak zorunda. Token bütçesi dar, hata payı yüksek.

Çözüm de o kadar basit: modele “düşünme alanı” vermek.

Chain of Thought (Few-Shot CoT)

Orijinal CoT, few-shot örneklerle çalışır. Prompt’a hem soru hem akıl yürütme zinciri içeren birkaç örnek koyarsınız:

Soru: Roger'da 5 tenis topu var. 2 paket daha aldı. Her pakette 3 top var.
Şimdi kaç topu var?
Cevap: Roger başlangıçta 5 topa sahip. 2 paket × 3 top = 6 top. 5 + 6 = 11.
Cevap: 11.

Soru: Bir kafede 23 elma vardı. 20'si öğle yemeğinde kullanıldı, 6 elma daha alındı.
Şimdi kaç elma var?
Cevap:

Model artık örnek formatı taklit eder; cevaba ulaşmadan önce ara adımları yazar. Sonuç çoğu zaman doğru: “23 − 20 = 3. 3 + 6 = 9. Cevap: 9.”

Anahtar gözlem: CoT akıl yürütmenin görünürlüğünü artırırken, model hata yapsa bile nerede yanlış düşündüğü okunabilir hâle gelir. Bu, “tek satır cevap”a göre debug edilebilirlik kazandırır.

CoT yalnızca yeterince büyük modellerde işe yarar. Orijinal makalede 100+ milyar parametreli modellerde dramatik iyileşme gözlenirken, daha küçük modellerde CoT bazen performansı düşürür. Bu, “emergent ability” yani modelin belli bir ölçekten sonra ortaya çıkan yetenek olarak tanımlandı.

Zero-Shot CoT — “Adım adım düşünelim”

Few-shot CoT’un sınırı şu: her görev için elle örnek hazırlamak zaman alır. 2022’de Kojima ve ekibi inanılmaz basit bir trick keşfetti: prompt’un sonuna “Let’s think step by step” ya da Türkçesi “Adım adım düşünelim” eklemek, modeli aynı zincirleme akıl yürütmeye sokuyor.

Soru: Bir kafede 23 elma vardı. 20'si öğle yemeğinde kullanıldı, 6 elma daha alındı.
Şimdi kaç elma var?
Adım adım düşünelim:

GPT‑4, Claude ve diğer büyük modeller bu sihirli cümleyi gördüklerinde ara adımları üretmeye başlar. Zero‑shot CoT, sıfır örnek gerektirdiği için pratik olarak çok güçlü; çoğu üretim sisteminde varsayılan akıl yürütme tetikleyicisi bu cümledir.

Kojima ve ekibinin gösterdiği gibi, “Adım adım düşünelim” ifadesi GSM8K matematik benchmark’ında zero‑shot doğruluğu %17.7’den %78.7’ye çıkardı. Tek bir cümle ile.

Self-Consistency — Birden fazla akıl yürütme + oylama

CoT’un zayıf yanı: model bazen aynı soruda farklı akıl yürütme yolları izleyip farklı cevaplara varır. Tek bir CoT çağrısı yanlış yolda olabilir.

Self-Consistency bu sorunu istatistikle çözer. Aynı soruyu yüksek sıcaklıkta (temperature=0.7 gibi) N kez sorarsınız (genelde 5‑20). Her cevap farklı bir akıl yürütme zinciri izler. Sonunda en çok oy alan nihai cevabı seçersiniz.

from collections import Counter

prompts = [base_prompt] * 10
samples = [llm(p, temperature=0.7) for p in prompts]
answers = [extract_final_answer(s) for s in samples]
final = Counter(answers).most_common(1)[0][0]

Self-Consistency, GSM8K’da CoT’un üzerine ek olarak %10‑15 doğruluk getirir. Maliyeti N katı token’dır; üretim sistemlerinde maliyet/doğruluk dengesi kurulmalıdır.

Tree of Thoughts (ToT) — Akıl yürütmeyi ağaca dönüştür

CoT linear bir zincirdir; model bir kez yanlış adım atınca toparlayamaz. Tree of Thoughts, akıl yürütmeyi bir ağaç olarak modelleyerek farklı dalları paralel keşfeder. Princeton ve DeepMind’ın 2023’te ortaya koyduğu yöntem dört bileşene dayanır:

Thought decomposition — problemi ara adımlara böl.
Thought generator — her düğümde birkaç olası “sonraki düşünce” üret.
State evaluator — her dalı 0‑1 arası skorla (model kendisi puan verir).
Search algorithm — BFS ya da DFS ile en umut verici dalı genişlet.

Bir bulmaca tipi soruda (örneğin “Game of 24”: dört sayıyı dört işlem ile 24’e ulaştırma), CoT %4 başarı verirken ToT %74’e çıkar. Bedeli ise yüksek: tek bir soruya 100+ LLM çağrısı.

Pratikte ToT genelde araştırma demolarında ya da çok pahalı multi-step task’larda kullanılır. Üretim için ağır kalır; çoğu sistem Self-Consistency ile yetinir.

ReAct — Reasoning + Acting

Saf CoT içe kapalıdır: model sadece düşünür, dış dünyaya dokunmaz. Gerçek problemler ise araç kullanır — web araması, hesap makinesi, veritabanı sorgusu, kod çalıştırma.

ReAct (Reason + Act), Yao ve ekibinin 2022 makalesi, CoT’u tool calling ile birleştirir. Model her döngüde üç şey üretir:

Thought: Sorunun ne soruyu çözmek için Wikipedia'da "Hoover Dam" sayfasına bakmalıyım.
Action: search("Hoover Dam construction year")
Observation: Hoover Dam, 1931-1936 yılları arasında inşa edildi.
Thought: 1936-1931 = 5 yıl sürdü. Cevabı verebilirim.
Action: finish("5 yıl")

Bu pattern, modern agent sistemlerinin (LangChain ReAct, AutoGPT, OpenAI function calling) temelidir. CoT’un “düşünme” kısmı ile API/tool çağrılarının “eylem” kısmı iç içe geçer.

ReAct’ın güçlü yanı: model akıl yürütürken halüsinasyon yapsa bile, bir sonraki adımda gerçek bir kaynaktan veri çekip kendisini düzeltebilir. Halüsinasyon riski CoT’a göre belirgin biçimde düşer.

Pratik prompt örnekleri

Matematik problemi (Zero-shot CoT)

Bir tren 60 km/saat hızla A şehrinden B şehrine gidiyor.
İki şehir arası 180 km. Tren saat 09:00'da yola çıktıysa
B şehrine ne zaman varır? Adım adım düşünelim.

Mantık problemi (Few-shot CoT)

Üç örnekli zincir kurun, ardından soruyu sorun. Model formatı taklit eder.

Karmaşık karar (Self-Consistency)

Aynı prompt’u temperature=0.7 ile 10 kez çağırın, çoğunluk cevabını alın.

Karar + araç kullanımı (ReAct döngüsü)

Prompt’a Thought:, Action:, Observation: bloklarını öğretin; her tool çağrısından sonra modele observation’ı geri verin.

CoT ne zaman işe yaramaz

CoT sihir değil. Şu durumlarda devre dışı bırakmak ya da farklı yaklaşım denemek mantıklı:

Tek adımlı sorular — “Türkiye’nin başkenti?” gibi tek tokenlık cevap için CoT gereksiz token harcatır.
Küçük modeller — 7B altı modellerde CoT bazen doğruluğu düşürür; model uzun zincir tutamaz.
Yaratıcı yazım — şiir, hikâye gibi divergent görevlerde CoT modeli aşırı analitik yapıp akıcılığı bozabilir.
Düşük latency gereken durumlar — CoT cevap uzunluğunu 3‑5 katına çıkarır; sohbet UX’inde algılanabilir gecikme yaratır.

Genel kural: çok adımlı, doğruluğun ölçülebildiği task’larda CoT açık; doğrudan cevap yeterli olan durumlarda kapalı.

Üretimde kullanım: pratik notlar

Streaming + CoT — ChatGPT tarzı UX’te ara düşünceleri kullanıcıya göstermek hem güven verir hem latency hissini azaltır. OpenAI’nin reasoning modelleri (o1, o3) bu fikri model seviyesinde içselleştirdi.
Hidden CoT — bazı sistemlerde akıl yürütmeyi gizler, sadece nihai cevabı dönersiniz. Token kullanır ama UX temiz kalır.
CoT + structured outputs — final cevabı structured outputs ile JSON formatında çekersiniz; ara düşünceler text, çıktı şema. Karma yaklaşım üretimde yaygın.
CoT logging — debug için akıl yürütme zincirlerini saklayın. Bir cevap yanlış çıktığında nerede yanıldığını görebilmeniz altın değerinde.

Sonuç

Chain of Thought, modern LLM’lerin akıl yürütme yeteneğini açan en basit ve en etkili tekniktir. Modeli “düşünmeye zorlamak” için tek yapmanız gereken birkaç örnek vermek ya da magic cümleyi eklemek. Üzerine inşa edilen Self‑Consistency, Tree of Thoughts ve ReAct, aynı fikrin maliyet/doğruluk dengesinin farklı noktalarındaki çözümleridir.

OpenAI o1, DeepSeek R1 ve test-time-compute paradigması, CoT’un model seviyesinde kalıcılaştığını gösteriyor. Önümüzdeki yıllarda manuel CoT prompt’u yazma ihtiyacının azalacağı, “akıl yürüten model” türünün standartlaşacağı bekleniyor. Bunu daha geniş bir bağlamda ele aldığımız Akıl Yürüten AI Modelleri ve Prompt Engineering Rehberi yazılarımız bu evrimi tamamlıyor.

Şimdilik en pratik öneri sade: prod’da kullandığınız her reasoning task’ında zero‑shot CoT cümlesini deneyin; ölçtüğünüz benchmark üzerinde fark görüyorsanız bırakın, görmüyorsanız token’a yazık etmeyin.

Chain of Thought (CoT) Prompting Nedir? LLM Akıl Yürütme Teknikleri 2026