newspaper Haber schedule 9 Haziran 2026 · 22:38 timer 4 dk okuma

İki Dilli Müşterilerle Sesli Asistanlar Nasıl Başa Çıkıyor? Kod Değiştirme Üzerine Kapsamlı Bir ASR Karşılaştırması

Dünya nüfusunun yarısından fazlası iki dilli ve konuşma sırasında diller arasında geçiş yapmak (kod değiştirme) yaygın bir durum. Bu makale, yedi farklı otomatik konuşma tanıma (ASR) sistemini dört dil çiftinde (İspanyolca-İngilizce, Fransızca-İngilizce, Kanada Fransızcası-İngilizce, Almanca-İngilizce) kod değiştirmeli konuşma üzerinde test eden bir benchmark çalışmasını özetliyor. ElevenLabs Scribe V2, Gemini 3 Flash ve AssemblyAI Universal 3-Pro'nun en başarılı modeller olduğu ortaya çıkarken, kod değiştirmenin transkripsiyon hatalarını artırdığı ancak en iyi modellerin bu zorluğu tek dilli performanslarına yakın seviyede yönettiği görülüyor.

Kod Değiştirme: Sesli Asistanlar İçin Yeni Bir Sınav

Dünya genelinde iki dilli konuşmacılar, günlük iletişimlerinde sık sık diller arasında geçiş yapar. Bu doğal dil davranışı, müşteri hizmetleri ve IT destek hatlarında da kendini gösterir. Ancak, sesli asistanların (voice agents) bu tür kod değiştirmeli (code-switched) konuşmaları ne kadar iyi işlediği konusunda çok az araştırma bulunuyor. Bir müşterinin, büyük ölçüde iki dilli olan müşteri tabanı için sesli asistanlarının performansını sorması üzerine, araştırmacılar kapsamlı bir benchmark çalışması başlattı. Çalışma, sesli asistan zincirinin ilk ve kritik adımı olan otomatik konuşma tanıma (automatic speech recognition - ASR) sistemlerine odaklanıyor. Çünkü transkripsiyon hataları, sonraki tüm bileşenlere yayılarak operasyonel sorunlara yol açabiliyor.

Benchmark Tasarımı ve Veri Kümesi

Araştırmacılar, müşteri tabanı için en alakalı dört dil çiftini seçti: İspanyolca-İngilizce, Fransızca-İngilizce, Kanada Fransızcası-İngilizce ve Almanca-İngilizce. Veri kümesi, İnsan Kaynakları (HR) ve BT Hizmet Yönetimi (ITSM) senaryolarını kapsıyor; çalışanların yan haklar, maaş, şifre sıfırlama, VPN erişimi ve cihaz sorun giderme gibi konulardaki taleplerini içeriyor. Her bir kod değiştirmeli ifade, bir yapay zeka dil modeli (LLM) olan OpenAI/GPT-5 kullanılarak oluşturuldu ve ElevenLabs Multilingual V2 ile sentetik sese dönüştürüldü. Tüm kayıtlar, ana dil konuşuru bir dilbilimci tarafından kontrol edildi. Sonuçta 259 İspanyolca-İngilizce, 298 Fransızca-İngilizce, 188 Kanada Fransızcası-İngilizce ve 173 Almanca-İngilizce kayıttan oluşan bir veri kümesi elde edildi.

Değerlendirme Metrikleri ve Test Edilen Modeller

Performans ölçümü için üç metrik kullanıldı:

Kelime Hata Oranı (Word Error Rate - WER): Transkripsiyonun kelime düzeyinde doğruluğunu ölçer.
Anlamsal Kelime Hata Oranı (Semantic Word Error Rate - SWER): Anlamı bozan hataları tespit eder; Gemma-4-31B modeli ile değerlendirilir.
Cevap Hata Oranı (Answer Error Rate - AER): Transkripsiyon hatalarının aşağı akış görevlerine (soruları yanıtlama) etkisini ölçer.

Test edilen yedi ASR sistemi şunlardı:

AssemblyAI / Universal 3-Pro
Deepgram / Nova 3 Multilang
ElevenLabs / Scribe V2
Google / Gemini 3 Flash
Mistral AI / Voxtral Small 24B-2507
Nvidia / Parakeet TDT 0.6b V3
OpenAI / Whisper Large V3 Turbo

Öne Çıkan Bulgular: En İyi Modeller ve Sürpriz Sonuçlar

Araştırmanın ana bulgusu, kod değiştirmenin getirdiği maliyetin dil çiftine ve modele göre değiştiği. ElevenLabs Scribe V2, Gemini 3 Flash ve AssemblyAI Universal 3-Pro tüm metriklerde en iyi performansı gösterdi. Scribe V2 ve AssemblyAI, WER'de başı çekerken, Gemini 3 Flash anlamsal metriklerde (SWER ve AER) daha başarılı oldu. Bu durum, Gemini'nin büyük ses dil modeli (Large Audio Language Model - LALM) olarak dil anlayışı ve muhakeme yeteneğinin, ham transkripsiyon doğruluğundaki küçük eksiklikleri telafi ettiğini gösteriyor.

Dikkat çekici bir diğer sonuç, OpenAI Whisper Large V3 Turbo'nun en düşük performansı göstermesi oldu. Whisper, kod değiştirmeli sesi transkribe etmek yerine varsayılan olarak İngilizce'ye çevirme eğiliminde, bu da WER'de büyük kayıplara yol açıyor. Ancak anlamsal metriklerde bu fark daralıyor, çünkü çeviri anlamı kısmen koruyor.

Deepgram Nova 3 ise ilginç bir durum sergiliyor: SWER'de orta sıralarda yer alırken, AER'de en alt sıralara geriliyor. Bu, modelin genel anlamsal hata oranının düşük olmasına rağmen, kritik detaylarda (isim, tarih, vaka numarası gibi) daha fazla hata yaptığını gösteriyor.

Kod Değiştirmenin Maliyeti ve Hata Kaynakları

Araştırmacılar, kod değiştirmenin transkripsiyon üzerindeki ek maliyetini ölçmek için her ifadeyi üç farklı versiyonda test etti: kod değiştirmeli, tek dilli ana dil ve tek dilli İngilizce. En iyi modeller (Scribe V2, Gemini 3 Flash, AssemblyAI), kod değiştirmeli durumda tek dilli performanslarına çok yakın sonuçlar verdi. Whisper ise İngilizce'ye kıyasla en büyük düşüşü gösterdi.

Hata analizi için iki aşamalı bir model kullanıldı. İlk aşamada, bir hatanın oluşma olasılığını artıran faktörler incelendi. Dil geçiş sayısı (switch count), özellikle Fransızca-İngilizce dil çiftinde, hata oluşumuyla en tutarlı şekilde ilişkili bulundu. İkinci aşamada, hata büyüklüğünü etkileyen faktörler araştırıldı. Burada Kod Karışım Endeksi (Code-Mixing Index - CMI), yani ifadedeki ikinci dil oranı, hata şiddetini artıran ana faktör olarak öne çıktı. Özellikle Almanca-İngilizce dil çiftinde, CMI arttıkça WER de yükseldi.

Hataların Dağılımı: İngilizce Kısımlar Daha Kırılgan

Son deneyde, hataların kod değiştirmeli ifadelerin hangi bölümlerinde yoğunlaştığı incelendi. Beklenenin aksine, hatalar İngilizce kısımlarda daha fazlaydı. Oysa bu modeller tek dilli İngilizce'de en iyi performansı gösteriyor. Bunun olası nedenleri arasında, İngilizce bölümlerin daha fazla teknik terim ve özel isim içermesi ya da modelin dil geçişi sırasında uyum sağlamakta zorlanması sayılabilir. Araştırmacılar, bu durumun kesin nedenini belirlemek için daha fazla çalışma yapılması gerektiğini belirtiyor.

Neden Önemli?

Bu benchmark, kod değiştirmeli konuşmanın sesli asistanlar için hala bir zorluk olduğunu ancak en iyi modellerin bu zorluğu tek dilli performanslarına yakın seviyede yönetebildiğini gösteriyor. İşletmeler, ASR sistemlerini dikkatli seçerek iki dilli müşterilerinin doğal bir şekilde konuşmasına olanak tanıyabilir. Ancak performans, dil çiftine ve modele göre büyük farklılıklar gösteriyor. Bu nedenle, üretim kararları almadan önce müşterilerin konuştuğu dillerde mutlaka benchmark testi yapılmalı. Çalışma ayrıca, kod değiştirme araştırmaları için açık kaynaklı bir değerlendirme aracı olan AU-Harness'i de sunuyor.

tag ASR tag kod değiştirme tag iki dilli tag sesli asistan tag ElevenLabs tag Gemini

İki Dilli Müşterilerle Sesli Asistanlar Nasıl Başa Çıkıyor? Kod Değiştirme Üzerine Kapsamlı Bir ASR Karşılaştırması

Kod Değiştirme: Sesli Asistanlar İçin Yeni Bir Sınav

Benchmark Tasarımı ve Veri Kümesi

Değerlendirme Metrikleri ve Test Edilen Modeller

Öne Çıkan Bulgular: En İyi Modeller ve Sürpriz Sonuçlar

Kod Değiştirmenin Maliyeti ve Hata Kaynakları

Hataların Dağılımı: İngilizce Kısımlar Daha Kırılgan

Neden Önemli?

Diğer Haberler

Meta, Hindistan'daki İlk Yapay Zeka Veri Merkezi Anlaşmasını Reliance ile İmzaladı

Google'dan Yapay Zeka Abonelik Savaşında Fiyat Kırması: AI Plus Artık 4.99 Dolar

Yapay Zeka Hakkında Bilmeniz Gereken 5 Şey: SXSW Londra'dan Önemli Çıkarımlar