İki Dilli Müşterilerle Sesli Asistanlar Nasıl Başa Çıkıyor? Kod Değiştirme Üzerine Kapsamlı Bir ASR Karşılaştırması
Dünya nüfusunun yarısından fazlası iki dilli ve konuşma sırasında diller arasında geçiş yapmak (kod değiştirme) yaygın bir durum. Bu makale, yedi farklı otomatik konuşma tanıma (ASR) sistemini dört dil çiftinde (İspanyolca-İngilizce, Fransızca-İngilizce, Kanada Fransızcası-İngilizce, Almanca-İngilizce) kod değiştirmeli konuşma üzerinde test eden bir benchmark çalışmasını özetliyor. ElevenLabs Scribe V2, Gemini 3 Flash ve AssemblyAI Universal 3-Pro'nun en başarılı modeller olduğu ortaya çıkarken, kod değiştirmenin transkripsiyon hatalarını artırdığı ancak en iyi modellerin bu zorluğu tek dilli performanslarına yakın seviyede yönettiği görülüyor.
Kod Değiştirme: Sesli Asistanlar İçin Yeni Bir Sınav
Dünya genelinde iki dilli konuşmacılar, günlük iletişimlerinde sık sık diller arasında geçiş yapar. Bu doğal dil davranışı, müşteri hizmetleri ve IT destek hatlarında da kendini gösterir. Ancak, sesli asistanların (voice agents) bu tür kod değiştirmeli (code-switched) konuşmaları ne kadar iyi işlediği konusunda çok az araştırma bulunuyor. Bir müşterinin, büyük ölçüde iki dilli olan müşteri tabanı için sesli asistanlarının performansını sorması üzerine, araştırmacılar kapsamlı bir benchmark çalışması başlattı. Çalışma, sesli asistan zincirinin ilk ve kritik adımı olan otomatik konuşma tanıma (automatic speech recognition - ASR) sistemlerine odaklanıyor. Çünkü transkripsiyon hataları, sonraki tüm bileşenlere yayılarak operasyonel sorunlara yol açabiliyor.
Benchmark Tasarımı ve Veri Kümesi
Araştırmacılar, müşteri tabanı için en alakalı dört dil çiftini seçti: İspanyolca-İngilizce, Fransızca-İngilizce, Kanada Fransızcası-İngilizce ve Almanca-İngilizce. Veri kümesi, İnsan Kaynakları (HR) ve BT Hizmet Yönetimi (ITSM) senaryolarını kapsıyor; çalışanların yan haklar, maaş, şifre sıfırlama, VPN erişimi ve cihaz sorun giderme gibi konulardaki taleplerini içeriyor. Her bir kod değiştirmeli ifade, bir yapay zeka dil modeli (LLM) olan OpenAI/GPT-5 kullanılarak oluşturuldu ve ElevenLabs Multilingual V2 ile sentetik sese dönüştürüldü. Tüm kayıtlar, ana dil konuşuru bir dilbilimci tarafından kontrol edildi. Sonuçta 259 İspanyolca-İngilizce, 298 Fransızca-İngilizce, 188 Kanada Fransızcası-İngilizce ve 173 Almanca-İngilizce kayıttan oluşan bir veri kümesi elde edildi.
Değerlendirme Metrikleri ve Test Edilen Modeller
Performans ölçümü için üç metrik kullanıldı:
- Kelime Hata Oranı (Word Error Rate - WER): Transkripsiyonun kelime düzeyinde doğruluğunu ölçer.
- Anlamsal Kelime Hata Oranı (Semantic Word Error Rate - SWER): Anlamı bozan hataları tespit eder; Gemma-4-31B modeli ile değerlendirilir.
- Cevap Hata Oranı (Answer Error Rate - AER): Transkripsiyon hatalarının aşağı akış görevlerine (soruları yanıtlama) etkisini ölçer.
Test edilen yedi ASR sistemi şunlardı:
- AssemblyAI / Universal 3-Pro
- Deepgram / Nova 3 Multilang
- ElevenLabs / Scribe V2
- Google / Gemini 3 Flash
- Mistral AI / Voxtral Small 24B-2507
- Nvidia / Parakeet TDT 0.6b V3
- OpenAI / Whisper Large V3 Turbo
Öne Çıkan Bulgular: En İyi Modeller ve Sürpriz Sonuçlar
Araştırmanın ana bulgusu, kod değiştirmenin getirdiği maliyetin dil çiftine ve modele göre değiştiği. ElevenLabs Scribe V2, Gemini 3 Flash ve AssemblyAI Universal 3-Pro tüm metriklerde en iyi performansı gösterdi. Scribe V2 ve AssemblyAI, WER'de başı çekerken, Gemini 3 Flash anlamsal metriklerde (SWER ve AER) daha başarılı oldu. Bu durum, Gemini'nin büyük ses dil modeli (Large Audio Language Model - LALM) olarak dil anlayışı ve muhakeme yeteneğinin, ham transkripsiyon doğruluğundaki küçük eksiklikleri telafi ettiğini gösteriyor.
Dikkat çekici bir diğer sonuç, OpenAI Whisper Large V3 Turbo'nun en düşük performansı göstermesi oldu. Whisper, kod değiştirmeli sesi transkribe etmek yerine varsayılan olarak İngilizce'ye çevirme eğiliminde, bu da WER'de büyük kayıplara yol açıyor. Ancak anlamsal metriklerde bu fark daralıyor, çünkü çeviri anlamı kısmen koruyor.
Deepgram Nova 3 ise ilginç bir durum sergiliyor: SWER'de orta sıralarda yer alırken, AER'de en alt sıralara geriliyor. Bu, modelin genel anlamsal hata oranının düşük olmasına rağmen, kritik detaylarda (isim, tarih, vaka numarası gibi) daha fazla hata yaptığını gösteriyor.
Kod Değiştirmenin Maliyeti ve Hata Kaynakları
Araştırmacılar, kod değiştirmenin transkripsiyon üzerindeki ek maliyetini ölçmek için her ifadeyi üç farklı versiyonda test etti: kod değiştirmeli, tek dilli ana dil ve tek dilli İngilizce. En iyi modeller (Scribe V2, Gemini 3 Flash, AssemblyAI), kod değiştirmeli durumda tek dilli performanslarına çok yakın sonuçlar verdi. Whisper ise İngilizce'ye kıyasla en büyük düşüşü gösterdi.
Hata analizi için iki aşamalı bir model kullanıldı. İlk aşamada, bir hatanın oluşma olasılığını artıran faktörler incelendi. Dil geçiş sayısı (switch count), özellikle Fransızca-İngilizce dil çiftinde, hata oluşumuyla en tutarlı şekilde ilişkili bulundu. İkinci aşamada, hata büyüklüğünü etkileyen faktörler araştırıldı. Burada Kod Karışım Endeksi (Code-Mixing Index - CMI), yani ifadedeki ikinci dil oranı, hata şiddetini artıran ana faktör olarak öne çıktı. Özellikle Almanca-İngilizce dil çiftinde, CMI arttıkça WER de yükseldi.
Hataların Dağılımı: İngilizce Kısımlar Daha Kırılgan
Son deneyde, hataların kod değiştirmeli ifadelerin hangi bölümlerinde yoğunlaştığı incelendi. Beklenenin aksine, hatalar İngilizce kısımlarda daha fazlaydı. Oysa bu modeller tek dilli İngilizce'de en iyi performansı gösteriyor. Bunun olası nedenleri arasında, İngilizce bölümlerin daha fazla teknik terim ve özel isim içermesi ya da modelin dil geçişi sırasında uyum sağlamakta zorlanması sayılabilir. Araştırmacılar, bu durumun kesin nedenini belirlemek için daha fazla çalışma yapılması gerektiğini belirtiyor.
Neden Önemli?
Bu benchmark, kod değiştirmeli konuşmanın sesli asistanlar için hala bir zorluk olduğunu ancak en iyi modellerin bu zorluğu tek dilli performanslarına yakın seviyede yönetebildiğini gösteriyor. İşletmeler, ASR sistemlerini dikkatli seçerek iki dilli müşterilerinin doğal bir şekilde konuşmasına olanak tanıyabilir. Ancak performans, dil çiftine ve modele göre büyük farklılıklar gösteriyor. Bu nedenle, üretim kararları almadan önce müşterilerin konuştuğu dillerde mutlaka benchmark testi yapılmalı. Çalışma ayrıca, kod değiştirme araştırmaları için açık kaynaklı bir değerlendirme aracı olan AU-Harness'i de sunuyor.