tag RL

Bu sayfada RL etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

DeepSeek-R1 (DeepSeek-R1)

DeepSeek-R1, Çin merkezli DeepSeek şirketi tarafından 2025'in başında yayımlanan ve zincirleme düşünme (chain-of-thought reasoning) konusunda OpenAI o1 ile rekabet eden açık ağırlıklı (open-weight) büyük dil modelidir. 671 milyar parametreli Mixture-of-Experts (MoE) mimarisi üzerine kuruludur ve pekiştirmeli öğrenme (RL) ile güçlendirilmiş akıl yürütme sürecini geliştirmiştir; model yanıt üretmeden önce uzun iç monologlar (düşünme adımları) oluşturur. DeepSeek-R1'in en dikkat çekici özelliği eğitim maliyetidir: OpenAI modelleriyle kıyaslandığında çok daha düşük bir bütçeyle benzer matematik, kod ve akıl yürütme kıyaslaması puanları elde etmesi yapay zeka topluluğunda büyük yankı uyandırdı. Model MIT lisansıyla HuggingFace üzerinden serbestçe indirilebilir; 1.5B'den 671B'ye kadar damıtma versiyonları mevcuttur. Bu damıtılmış modeller (distill), küçük ölçekte bile güçlü muhakeme yeteneklerini miras alır. DeepSeek-R1'in yayımlanması, akıl yürütme odaklı modellerin salt ölçek artışı değil, eğitim algoritması yeniliğiyle geliştirilebileceğini kanıtlamıştır. GRPO (Group Relative Policy Optimization) gibi yeni RL optimizasyon teknikleriyle küçük modellerin de büyük modellere yakın muhakeme kapasitesi kazanabileceği gösterilmiştir.

arrow_forward