list_altİçindekilerexpand_more
- 01Neden aggregator platform?
- 02OpenRouter
- 03Nasıl çalışır?
- 04Güçlü yönleri
- 05Zayıf yönleri
- 06Together AI
- 07Öne çıkan özellikler
- 08Kullanım örneği
- 09Güçlü yönleri
- 10Zayıf yönleri
- 11Replicate
- 12Nasıl çalışır?
- 13Öne çıkan özellikler
- 14Güçlü yönleri
- 15Zayıf yönleri
- 16Karşılaştırma tablosu
- 17Hangi platform, hangi durum?
- 18Hibrit kullanım: gerçek prodüksiyon senaryosu
- 19Maliyet kıyası: pratik örnek
- 20Karar: nereden başlamalı?
OpenAI veya Anthropic gibi ilk taraf API’lerle çalışmak basittir: tek sağlayıcı, tek fiyatlandırma, tek model ailesi. Üretim uygulamalarına geçildiğinde farklı sorular ortaya çıkıyor: “Bu modeli başkası daha ucuza sunuyor mu?”, “Fine-tune ettiğim Llama modelini nerede çalıştırayım?”, “Sadece test için bir görsel üretmem gerekiyor, tam abonelik şart mı?”
Bu sorular aggregator ve inference platformlarını sahneye çıkarıyor. OpenRouter, Together AI ve Replicate birbirinden farklı konumlanıyor ve farklı sorunları çözüyor. Bu yazıda maliyet, performans ve kullanım senaryosu açısından hangisinin ne zaman tercih edilmesi gerektiğine bakıyoruz.
Neden aggregator platform?
İlk taraf API kullanmanın dezavantajları zamanla daha görünür hale geliyor.
Vendor lock-in: Tek sağlayıcıya bağımlı kaldığınızda fiyat artışları veya hizmet kesintilerine karşı seçenek üretmek güçleşiyor. 2024-2025 döneminde birçok sağlayıcı fiyatlandırmasını değiştirdi; bu geçişler production sistemlerde beklenmedik maliyetler yarattı.
Model çeşitliliği: Belirli görevler için farklı modeller daha uygun olabilir. Uzun belge özetleme için Llama 3.1 70B, hızlı sınıflandırma için küçük Mistral, görsel analiz için multimodal bir model. Tek sağlayıcıda bu kombinasyonu bulmak her zaman mümkün değil.
Maliyet optimizasyonu: Aynı görev için farklı sağlayıcılar arasında ciddi fiyat farkları var. Aggregator platformlar bu karşılaştırmayı ve geçişi kolaylaştırıyor. vLLM gibi açık kaynak inference motorları kendi altyapınızda da bu optimizasyonu yapmanıza olanak tanısa da, yönetim yükü taşımak istemiyorsanız aggregator cloud seçeneği daha pratik.
Tek entegrasyon noktası: Üç farklı sağlayıcıya entegrasyon kodu yazmak yerine tek API endpoint üzerinden hepsine erişmek, geliştirme ve bakım yükünü belirgin biçimde azaltıyor.
OpenRouter
OpenRouter, farklı sağlayıcılardaki yüzlerce modeli tek bir OpenAI-uyumlu API endpoint üzerinden sunan bir aggregator.
Nasıl çalışır?
Mevcut OpenAI SDK kodunuzu neredeyse sıfır değişiklikle kullanabilirsiniz. Sadece base_url ve api_key değiştirilmesi yeterli:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="<openrouter-api-key>",
)
response = client.chat.completions.create(
model="meta-llama/llama-3.1-70b-instruct",
messages=[{"role": "user", "content": "Türkçe bir şiir yaz."}],
)
print(response.choices[0].message.content)
Model parametresine sağlayıcı prefix’i ekliyorsunuz (anthropic/claude-3.5-sonnet, google/gemini-2.0-flash, meta-llama/llama-3.1-8b-instruct gibi). Platform arka planda doğru sağlayıcıya yönlendiriyor.
Güçlü yönleri
Otomatik fallback: Birincil sağlayıcı kapasitesi dolarsa ya da hata verirse, OpenRouter otomatik olarak alternatif sağlayıcıya yönlendiriyor. Production sistemlerde uptime açısından bu özellik değerli.
Model çeşitliliği: 200’den fazla model mevcut. Açık kaynak modeller (Llama, Mistral, Qwen, DeepSeek), kapalı kaynak modeller (GPT-4o, Claude, Gemini) ve özelleşmiş modeller tek listede.
Şeffaf fiyatlandırma: Her modelin token başı maliyeti platform üzerinde açıkça gösteriliyor. Hangi modeli seçerseniz seçin, gerçek zamanlı maliyet kıyaslaması yapabiliyorsunuz.
Prompt caching: Destekleyen sağlayıcılar üzerinden prompt caching aktarımı mevcut; uzun sistem mesajları veya tekrarlayan bağlamlarda maliyet avantajı sunuyor.
Zayıf yönleri
Enterprise SLA yok; kurumsal güvenceye ihtiyaç duyan yapılar için doğrudan sağlayıcıyla çalışmak daha uygun. Latency, doğrudan sağlayıcıya göre hafif yüksek (ek bir hop). Sağlayıcı bağımlı kısıtlamalar (rate limit, context window) aynen geçerli.
Together AI
Together AI, açık kaynak LLM’lere odaklanan bir inference platformu. Llama, Mistral, Qwen ve DeepSeek aileleri için optimize edilmiş altyapı sunuyor; bunların yanı sıra fine-tuning ve özel model deployment da mümkün.
Öne çıkan özellikler
Açık kaynak model desteği: Llama 3.1 (8B, 70B, 405B), Mistral, Qwen 2.5, DeepSeek-R1, Code Llama gibi modeller yüksek throughput yapılandırmalarıyla sunuluyor.
Fine-tuning pipeline: Together AI’nin en ayırt edici özelliği kendi modelinizi platforma fine-tune edip deploy edebilmeniz. Etiketli veri setinizi yükleyip LoRA veya tam fine-tuning çalıştırabiliyorsunuz; sonuçta kendi endpoint’inizden erişilen özelleşmiş bir model elde ediyorsunuz.
Embedding API: BGE, E5 ve BAAI gibi açık kaynak embedding modelleri API üzerinden sunuluyor. RAG sistemleri için ayrı bir embedding sağlayıcısına gerek kalmıyor.
Kullanım örneği
Structured outputs için Together AI ile JSON modu:
import together
client = together.Together(api_key="<together-api-key>")
response = client.chat.completions.create(
model="meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
messages=[
{"role": "user", "content": "Bir ürün için JSON formatında özellik listesi oluştur."}
],
response_format={"type": "json_object"},
)
print(response.choices[0].message.content)
Güçlü yönleri
Yüksek throughput Llama modelleri için fiyatlandırma rekabetçi. Fine-tuning ve deployment tek platformda tamamlanıyor. OpenAI uyumlu API ile geçiş kolay; kuantize edilmiş (int8, int4) model seçenekleri de maliyet tasarrufu sunuyor.
Zayıf yönleri
Kapalı kaynak model desteği yok; GPT, Claude veya Gemini’ye buradan erişilemiyor. Model seçimi açık kaynak ekosistemine sınırlı. Multimodal model desteği kısıtlı.
Replicate
Replicate, Cog framework’ü üzerine kurulu bir model marketplace ve inference platformu. Metin modelleri yanında görsel üretme, ses, video ve diğer makine öğrenmesi modellerine de erişim sunuyor.
Nasıl çalışır?
Replicate’in temel farkı Docker tabanlı model packaging. Geliştiriciler modellerini Cog ile paketleyip Replicate’e yükleyebiliyor; böylece 100.000’den fazla topluluk modeli platforma erişilir durumda.
import replicate
output = replicate.run(
"meta/meta-llama-3.1-405b-instruct",
input={
"prompt": "Makine öğrenmesini kısaca açıkla.",
"max_tokens": 512,
}
)
print("".join(output))
Öne çıkan özellikler
Multimodal model desteği: Flux, SDXL gibi görsel üretme modelleri; Whisper gibi ses transkripsiyonu modelleri; çeşitli video modelleri. Metin, görsel ve ses ihtiyacı olan projelerde tek platform olarak kullanılabilir.
Compute-time fiyatlandırma: Token başı değil, CPU/GPU kullanım süresi üzerinden ücretlendirme yapılıyor. Düşük hacimli workload’larda bu model avantajlı olabilir.
Özel model deploy: Kendi modelinizi Cog ile paketleyip private endpoint olarak çalıştırabiliyorsunuz. Replicate’in compute altyapısı üzerinde private deployment.
Güçlü yönleri
Multimodal ve özel model deployment için geniş ekosistem mevcut. Düşük hacimli veya deneysel kullanım için elverişli fiyatlandırma. Büyük topluluk model kütüphanesi. CPU, T4, A40 ve A100 dahil birden fazla compute türü seçeneği var.
Zayıf yönleri
Cold start gecikmesi: Modeller belirli bir süre sonra uykuya geçiyor; ilk istek 5-30 saniye sürebiliyor. Latency-sensitive production uygulamalar için ciddi bir dezavantaj. Compute-time fiyatlandırma yüksek hacimde öngörülemez maliyet yaratıyor. LLM inference (metin) için fiyat-performans oranı OpenRouter veya Together AI’nın gerisinde kalabiliyor.
Karşılaştırma tablosu
| Özellik | OpenRouter | Together AI | Replicate |
|---|---|---|---|
| Model çeşidi | 200+ (açık + kapalı) | ~100 (açık kaynak) | 100K+ (çok modlu) |
| Kapalı kaynak modeller | GPT, Claude, Gemini dahil | Hayır | Sınırlı |
| Fine-tuning | Hayır | Evet (LoRA + tam) | Kısmi |
| Multimodal modeller | Kısmi | Kısmi | Evet (güçlü) |
| OpenAI uyumlu API | Evet | Evet | Kısmi |
| Fiyatlandırma modeli | Token başı | Token başı | Compute süresi |
| Prompt caching | Evet (sağlayıcı bağımlı) | Hayır | Hayır |
| Cold start gecikmesi | Yok | Yok | Var (5-30sn) |
| Enterprise SLA | Hayır | Kısmi | Hayır |
| Embedding API | Hayır | Evet | Kısmi |
| Özel model deploy | Hayır | Evet | Evet |
Kaynak: OpenRouter.ai, Together.ai ve Replicate.com resmi fiyatlandırma ve dokümantasyon sayfaları (Temmuz 2026).
Hangi platform, hangi durum?
OpenRouter tercih edin:
- Hem açık kaynak hem kapalı kaynak modeller arasında dinamik geçiş gerekiyorsa.
- Vendor lock-in’den kaçınmak istiyorsanız.
- Mevcut OpenAI entegrasyonunu koruyarak model seçeneklerini genişletmek istiyorsanız.
- Otomatik fallback ve routing öncelikliyse.
Together AI tercih edin:
- Llama, Mistral veya DeepSeek gibi açık kaynak modelleri yüksek hacimde çalıştırıyorsanız.
- Fine-tuning pipeline gerekiyorsa.
- Embedding API’sini de aynı platformdan kullanmak istiyorsanız.
- Maliyet optimizasyonu öncelikli ve açık kaynak modeller yeterince iyiyse.
Replicate tercih edin:
- Multimodal modellere (görsel, ses, video) erişim gerekiyorsa.
- Düşük hacimli veya deneysel workload çalıştırıyorsanız.
- Kendi özel modelinizi Docker/Cog ile paketleyip deploy etmek istiyorsanız.
Hibrit kullanım: gerçek prodüksiyon senaryosu
Üretim ortamlarında bu platformlar genellikle birlikte kullanılıyor. Tipik bir yapı:
- Together AI: Ana LLM çıkarımı (fine-tune edilmiş özel model) ve embedding pipeline.
- OpenRouter: Fallback ve kapalı kaynak model erişimi (karmaşık akıl yürütme gerektiren görevler).
- Replicate: Görsel üretme ve ses işleme gibi tamamlayıcı multimodal görevler.
Bu tür hibrit mimari, prompt engineering stratejinizle birleştirildiğinde hem maliyet hem kalite açısından optimize edilmiş bir sistem oluşturuyor.
Maliyet kıyası: pratik örnek
Llama 3.1 70B ile 1 milyon token çıkarım (yaklaşık 700-800 sayfalık metin işleme):
| Platform | Model | Tahmini Maliyet |
|---|---|---|
| Together AI | Llama 3.1 70B Turbo | ~$0.88/M token |
| OpenRouter | meta-llama/llama-3.1-70b | ~$0.88-1.20/M token (sağlayıcıya göre) |
| Replicate | meta/meta-llama-3.1-70b | GPU süresine bağlı, değişken |
Kaynak: OpenRouter.ai, Together.ai ve Replicate.com açık fiyat sayfaları (Temmuz 2026). Gerçek fiyatlar değişebilir.
Together AI’nın doğrudan fiyatı, OpenRouter aracılığıyla aynı modele erişimden genellikle biraz daha düşük. Bu fark aracı marjının yansıması. OpenRouter’ın routing ve fallback özellikleri çoğu zaman bu farkı telafi ediyor.
Karar: nereden başlamalı?
Projenizin ihtiyacına göre karar kriterleri net:
- Açık ve kapalı kaynak modeller arası esneklik ve hızlı geçiş → OpenRouter
- Yüksek hacimli açık kaynak LLM ile fine-tuning ihtiyacı → Together AI
- Multimodal veya özel model deployment → Replicate
Üçü de LLM inference ekosisteminin farklı katmanlarını kapsıyor. Pek çok production projesi zamanla bu platformları farklı roller için bir arada kullanıyor.
Başlangıç için pratik bir yol: önce OpenRouter’ı deneyin. Model seçeneklerini netleştirdikten ve hangi açık kaynak modellerin kullanım durumunuza yettiğini gördükten sonra Together AI’ye geçiş değerlendirilebilir. Replicate ise metin dışı AI gereksinimleri için her zaman tamamlayıcı bir araç olarak değerini koruyor.



