Tree of Thoughts Nedir? LLM'lerde Dallanan Akıl Yürütme

list_altİçindekilerexpand_more

01CoT’tan ToT’a: ne değişti?
02Mekanizma: dört temel adım
031. Düşünce birimlerine ayırma (Thought Decomposition)
042. Aday üretimi (Thought Generation)
053. Durum değerlendirme (State Evaluation)
064. Ağacı dolaşma (Search)
07BFS mi, DFS mi?
08Gerçek örnek: Game of 24
09Maliyet ve sınırlar
10ToT ötesi: self-consistency, MCTS ve reasoning modeller
11Kendi probleminize uygulamak

Editorial tech-magazine cover illustration about tree of thoughts AI reasoning, luminous branching thought pathways forming a glowing tree structure, multiple parallel reasoning branches converging to a single optimal solution node, abstract artificial-intelligence motifs (glowing neural networks, flowing data, subtle circuitry), sophisticated modern concept art, clean balanced composition, soft cinematic studio lighting, rich depth of field, premium color grading in deep navy blues with cyan and magenta accents, highly detailed, polished editorial 8k. No text, no words, no letters, no captions, no logos, no watermark, no UI.

Bir matematik problemini çözmeye çalışıyorsunuz. İlk adımda yanlış bir yöne girdiniz. Doğrusal düşünce zinciri sizi bu noktada kilitler; devam etmek zorundasınızdır, geri dönmek mümkün değildir. Chain-of-thought prompting ile çalışan büyük dil modelleri tam bu kısıtla karşı karşıyadır: bir adım öne, bir adım daha, başa dönüş yok.

Princeton Üniversitesi ve Google’ın 2023’te yayımladığı “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (Yao ve ark.) bu soruna doğrudan eğildi. Tree of Thoughts (ToT) çerçevesi, bir LLM’e tek bir düşünce yolu izlemek yerine birden fazla ara adım adayı üretme, bunları bağımsız olarak değerlendirme, çıkmaz gördüğünde geri izleme (backtrack) ve daha umut vaat eden dallara yönelme imkânı tanır.

Bu yazı ToT’un nasıl çalıştığını ve gerçek benchmark sonuçlarını ele alır; hangi durumlarda CoT’dan daha iyi bir seçim olduğunu ve ödenen faturayı açıklar.

CoT’tan ToT’a: ne değişti?

Chain-of-thought prompting, modelin aradaki akıl yürütme adımlarını yazılı hale getirmesini zorunlu kılar. “Adım adım düşün” ifadesi bu yapıyı devreye sokmanın en basit yoludur ve aritmetik, mantık ile anlamsal görevlerde modelin doğruluğunu belirgin biçimde artırır. CoT’un başarısı, modelin “kafasında” tuttuğu gizli hesaplamaları açığa çıkararak dışarıdan izlenebilir hale getirmesinden gelir.

Ancak CoT doğrusal bir yapıdır. Model bir yolu seçer ve o yoldan gider. Üçüncü adımda yanlış bir öncül benimsenirse, yedinci adımdaki mantık ne kadar tutarlı olursa olsun yanıt çöpe gider. Geri bakma mekanizması yoktur. Çıkmazı fark etse de geri dönemez.

Bu kısıt, görece basit akıl yürütme görevlerinde çok da hissedilmez. Ama gerçekten çok adımlı problemlerde, yani cevabın birden fazla birbirinden bağımsız alt karar gerektirdiği durumlarda, CoT’un doğrusal yapısı çoğu zaman çıkılan yanlış yolda ilerlemeye devam etmek anlamına gelir.

ToT bu kısıtı ağaç yapısıyla aşar. Her düşünce adımında model birden fazla aday üretir; bu adaylar bir durum ağacının (state tree) düğümleri haline gelir. Her düğüm bağımsız olarak değerlendirilir ve bir arama algoritması, BFS ya da DFS, ağacı dolaşarak en umut verici yolu bulur.

Satranç motoru analojisi burada çalışır: bir satranç motoru hamle başına yüzlerce varyantı hesaplar, pozisyonları puanlar ve en güçlü devamı seçer. Geleneksel bir LLM bu hesabı kapalı kutuda gerçekleştirir; ToT ağacı açıkça inşa eder ve dışarıdan izlenebilir kılar. Bu şeffaflık aynı zamanda hataları bulmayı kolaylaştırır: hangi ara adımın sizi yanlış yöne götürdüğünü görebilirsiniz.

Mekanizma: dört temel adım

ToT çerçevesi dört aşamadan oluşur ve her aşama öncekinin çıktısını kullanır.

1. Düşünce birimlerine ayırma (Thought Decomposition)

Problemi anlamlı ara adımlara bölmek ilk ve belki de en kritik aşamadır. Bu adımların ne kadar küçük olması gerektiği göreve göre farklılaşır. Game of 24’te her adım tek bir aritmetik işlemdir. Yaratıcı yazı görevlerinde her adım bir paragraf ya da alt bölüm olabilir.

Prompt engineering açısından bu granülarite kararı belirleyicidir: çok kaba bir bölümleme ağacı işlevsiz kılar, çok ince bir bölümleme hesaplamayı patlatır. İyi bir ayrıştırma, her adımın bağımsız olarak değerlendirilebilir nitelikte olmasını gerektirir.

2. Aday üretimi (Thought Generation)

Her durumda (state) modelden k adet düşünce adayı üretmesi istenir. Bu, “birbirinden farklı k seçenek sun” biçiminde yapılandırılmış bir istemle ya da temperature parametresi yüksek tutularak k ayrı örneklemeyle elde edilebilir.

Bu adayların gerçekten çeşitlilik taşıması gerekir. Birbirinin parafrazı olan adaylar ağacı büyüttüğü yanılsamasını yaratır ama yeni bilgi eklemez. Çeşitlilik için temperature değerini 0.7-1.0 arasında tutmak ya da “birbirinden farklı yaklaşımlar kullan” gibi açık yönlendirmeler eklemek işe yarar.

3. Durum değerlendirme (State Evaluation)

Üretilen her aday adım bağımsız bir istemle puanlanır. Değerlendirici model şu soruya yanıt verir: Bu ara adım, nihai hedefe ne kadar yaklaşıyor? Devam etmeye değer mi?

Değerlendirme “kesin/olası/imkansız” gibi kategorik etiketler ya da 1-10 arası bir ölçek kullanabilir. Few-shot örneklerle bu değerlendirmeyi kalibre etmek sonuçları belirgin biçimde iyileştirir. Değerlendirici olarak ayrı, daha küçük ve ucuz bir model kullanmak da maliyet açısından makul bir stratejidir.

4. Ağacı dolaşma (Search)

Son adımda BFS (genişlik öncelikli arama) ya da DFS (derinlik öncelikli arama) algoritması devreye girer. BFS tüm adayları aynı derinlikte karşılaştırır, sonra bir sonraki katmana iner. DFS en umut verici dala önce iner, çıkmazda geri izler.

BFS mi, DFS mi?

İki strateji farklı görev tiplerine uygundur.

BFS, aynı derinlikteki tüm adayları genişletir. Toplam bütçe öngörülebilirdir ve en iyi yol erken elenme riskiyle karşılaşmaz. Hata maliyetinin yüksek olduğu durumlarda tercih edilir: hukuki analiz, matematiksel ispat taslağı, ilaç etkileşim değerlendirmesi. Her katmanda k adet düşünce adayının tamamını üretip değerlendirdikten sonra bir sonraki katmana geçtiğinizden, ağacın tamamını sistematik biçimde tararken hiçbir umut verici yolu gözden kaçırmazsınız.

DFS, en yüksek puanlı dala iner. Kısa bir yolda doğru cevabı bulmak mümkünse BFS’ten çok daha az API çağrısıyla sonuca ulaşır. Ama başlangıçta yüksek puan alan yanlış bir dal, gereksiz derin aramaların kapısını açar. Hızın ön planda tutulduğu prototip ya da interaktif uygulamalarda işe yarar; bir çıkmazda erken dur eşiği tanımlamak zorunludur. Değerlendirme puanı belirli bir eşiğin altına düşünce o dalı budayıp geri izlemek, DFS’i pratikte kullanılabilir kılan temel mekanizmadır.

Pratik kural: bütçe sınırlıysa DFS ile başlayıp erken dur eşiği ekleyin; sonucun kesinliği tartışılamaz olmalıysa BFS seçin. Gerçek üretim uygulamalarında ise ikisini hibrit biçimde kullanmak mümkündür: önce bir tur DFS ile hızlıca umut verici dalları belirleyin, ardından yalnızca o dallarda BFS derinleştirmesi yapın.

Gerçek örnek: Game of 24

Game of 24, dört sayıyı, toplama, çıkarma, çarpma ya da bölme işlemleriyle, birleştirerek tam olarak 24 elde etme oyunudur. Örnek sayılar: 4, 8, 3, 9.

Olası çözümlerden biri: (9 - 3) x (8 - 4) = 6 x 4 = 24.

Princeton araştırmacıları bu görevi farklı yaklaşımlarla sınadı:

Yöntem	Başarı oranı
Standart GPT-4	~4%
Chain-of-Thought	~11%
ToT (BFS, k=5)	~74%

Yüzde dört ile yetmiş dört arasındaki fark küçük bir iyileştirme değil. ToT’u bu problemde bu denli güçlü kılan şey tam da arama yapısıdır: ağaç, her adımda hangi sayı çiftlerinin birleştirileceğini sistematik olarak dener ve değerlendirir.

ToT prompt’unun basitleştirilmiş bir versiyonu şuna benzer:

Mevcut sayılar: 4, 8, 3, 9
Hedef: 24

Adım 1: İki sayı seç ve bir işlem uygula.
Üç farklı seçenek öner (farklı çiftler veya farklı işlemler):
  a) ...
  b) ...
  c) ...

Her seçeneği değerlendir (1-10 arası puan ver):
- Bu seçenekten yola çıkarak 24'e ulaşmak ne kadar mümkün?

Model üç aday üretir ve puanlar. En yüksek puanlı aday bir sonraki adıma geçer. Çıkmaz algılandığında backtrack yapılır ve alternatif bir dal genişletilir.

Model üç aday üretir ve puanlar. En yüksek puanlı aday bir sonraki adıma geçer. Çıkmaz algılandığında backtrack yapılır ve alternatif bir dal genişletilir. Game of 24 örneğinde bu süreç genellikle 3-4 katmanda sonuçlanır; başarısız backtrack’lar dahil toplam 15-25 API çağrısı gerekir, ama başarı oranı standart CoT’un yedisi katar yüksektir.

ToT yaratıcı yazı alanında da benzer şekilde çalışır. Bir kısa hikayenin sonunu üç farklı yönde geliştirip hangisinin karakter tutarlılığına en iyi hizmet ettiğini değerlendirmek mümkündür. Burada “doğru cevap” yoktur; değerlendirme kriteri estetik ya da hikaye bütünlüğüdür. Değerlendirici olarak daha küçük bir modelin (ya da tamamen ayrı bir prompt’un) kullanıldığı bu senaryolarda, insan değerlendirmesiyle karşılaştırıldığında ToT’un seçimleri çoğunlukla daha tutarlı çıkar.

Maliyet ve sınırlar

ToT’un en önemli pratik kısıtı hesaplama maliyetidir.

CoT tek bir tamamlama çağrısına karşılık gelirken ToT, k (aday sayısı) x d (ağaç derinliği) x 2 (üretim ve değerlendirme) API çağrısına denk düşer. Beş adaylı, dört katmanlı bir BFS ağacı 40 çağrı demektir. GPT-4 düzeyinde modellerde bu maliyet hızla büyür.

Gecikme (latency) de ciddi bir engel. Katmanlar ardışık işlendiğinde her katmanın tamamlanması beklenir; toplam süre doğrusal olarak uzar. Üretim ortamlarında ToT uygulamaları çoğunlukla asenkron işlem ve önbellek (caching) altyapısı gerektirir.

Bu maliyet yapısı göz önüne alındığında ToT’un gerçekten anlamlı olduğu alan oldukça sınırlıdır:

Tek seferde doğru cevap kritik öneme sahip olduğunda
Görev birden fazla bağımsız ara adıma açıkça bölünebildiğinde
Yanlış bir ara adımın düzeltilemez sonuçlara yol açtığı bağlamlarda

Gündelik özetleme, çeviri ya da doğrudan soru-cevap görevlerinde CoT yeterlidir. ToT’u gerçekten zor, çok adımlı muhakeme gerektiren problemlere ayırmak hem maliyet hem gecikme açısından doğru yaklaşımdır.

Açık kaynak tarafında LangGraph, ToT’u bir state machine olarak uygulamak için iyi bir çerçeve sunar. Her düğüm bir LLM çağrısını, her kenar bir geçiş koşulunu temsil eder; geri izleme için döngüsel kenarlar tanımlanabilir.

ToT ötesi: self-consistency, MCTS ve reasoning modeller

ToT’un fikirlerini farklı biçimlerde kullanan birkaç yaklaşım daha dikkat çekicidir.

Self-consistency, ToT’un daha ekonomik bir varyantı olarak düşünülebilir. Aynı problemi bağımsız CoT yollarıyla n kez çözdürür, ardından çoğunluk oyu alırsınız. Herhangi bir değerlendirme adımı yoktur; doğrusal yolları yeniden toplamak yeterlidir. Maliyet k x CoT çağrısına karşılık gelir ve ToT’un BFS maliyetinden daha düşüktür.

MCTS (Monte Carlo Tree Search) + LLM hibridleri, ToT’un deterministik değerlendirme adımı yerine simüle edilmiş geri dönüşler kullanır. AlphaCode 2 ve DeepSeek-R1 bu yaklaşımdan ilham alan mimariler içerir. Reasoning modeller üzerine kapsamlı bir karşılaştırma için bu makaleye bakabilirsiniz.

o1, o3 ve benzer reasoning modeller, ToT’un mantığını iç eğitim süreciyle bütünleştirir. Model, dışarıdan görünmeyen dahili düşünce adımları üretir ve bu adımlar ağaç yapısını andırır. Prompt mühendisliği gerektirmez; gecikme daha öngörülebilirdir. Dezavantajı gözlemlenebilirliğin sıfır olmasıdır: hangi dalın keşfedildiğini, hangisinin elendi göremezsiniz.

Karar çerçevesi açık: reasoning model erişiminiz varsa ve açıklanabilirlik kritik değilse, bu modeller çoğu durumda ToT’u pratik açıdan geride bırakır. Reasoning model yoksa ya da ara adımlar üzerinde tam kontrol istiyorsanız, ToT hala en sağlam seçenek olmayı korur.

Kendi probleminize uygulamak

ToT’u kendi uygulamanızda kullanmadan önce üç soruyu yanıtlamak işe yarar.

Problem gerçekten ara adımlara bölünebiliyor mu? Anlamlı alt adımlar tanımlamak güçse, ToT’un ağaç yapısı boş dallardan oluşan bir labirente dönüşür.

Değerlendirme kriteri net biçimde tanımlanabiliyor mu? “İyi bir adım” ne anlama gelir? Yanıt belirsizse değerlendirme modeli tutarsız puanlar üretir ve arama algoritması yanlış dallara yönelir.

API bütçeniz k x depth çarpımını karşılıyor mu? Küçük ölçekte prototip yapıp gerçek maliyet rakamlarını gördükten sonra üretime geçmek en doğrusudur.

Bu üç soruya olumlu yanıt verebildiğinizde ToT, özellikle çok adımlı muhakeme gerektiren matematik, planlama ve kodlama görevlerinde tek CoT çağrısına kıyasla kayda değer bir doğruluk artışı sunar. Hangi arama stratejisinin profilinize uyduğunu anlamak için küçük bir benchmark seti kurup BFS ile DFS’i paralel test etmek en doğrudan yoldur.