Prosodi Nedir? Konuşma Sentezinde Ton ve Ritim Kontrolü (Prosodi)

Konuşmanın ton yüksekliği, ritmi ve vurgusunu modelleyerek yapay sesi doğal hale getiren konuşma teknolojisi bileşeni.

Prosodi (İngilizce: Prosody), konuşmadaki ton yüksekliği (pitch/F0), fonem süresi (duration), ses enerjisi ve ritim gibi dilötesi özelliklerin bütünüdür. Yapay zeka tabanlı konuşma sentezi (TTS) sistemlerinde prosodi modelleme, üretilen sesin doğal ve akıcı duyulmasını sağlayan en kritik bileşenlerden biridir. Prosodi olmadan sentezlenen konuşma, anlam taşısa bile tek düze ve robotik duyulur; bu nedenle modern sinir ağı TTS modelleri prosodi parametrelerini otomatik olarak metinden öğrenir.

Prosodinin Bileşenleri

Prosodi dört temel akustik özellikten oluşur: (1) **Temel Frekans (F0 / Pitch)** — ses tellerinin titreşim hızı; konuşmacının sesinin yüksek veya alçak tınlamasını belirler ve soru-cümle ayrımında kritiktir. (2) **Süre (Duration)** — her fonemin ne kadar uzun çıkarıldığı; hızlı veya yavaş konuşma algısını yaratır. (3) **Enerji (Loudness)** — ses basıncı seviyesi; vurgulanan heceleri belirginleştirir. (4) **Sessizlikler (Pauses)** — cümle içi duraksamalar; anlam gruplarını birbirinden ayırır ve konuşmanın akışını şekillendirir.

TTS Sistemlerinde Prosodi Modelleme

Geleneksel kural tabanlı TTS sistemleri prosodi kurallarını dilbilgisi kurallarıyla elle tanımlarken, modern sinir ağı tabanlı modeller bu parametreleri doğrudan veriden öğrenir. Tacotron 2 ve FastSpeech 2 gibi modeller; fonem sürelerini, pitch konturunu ve enerji dağılımını aynı anda tahmin eder. Daha gelişmiş sistemler ise GST (Global Style Tokens) veya VAE (Variational Autoencoder) ile stil bilgisini gizli vektörlere kodlayarak konuşmacıya özgü prosodi aktarımı (prosody transfer) yapar. Bu yaklaşım, ses klonlama uygulamalarında kullanıcının tonunu ve konuşma ritmini doğal biçimde korumayı sağlar.

Prosodi Kontrol Yöntemleri

  • check_circle Akustik Özellik Kestirimi: Ayrı modüller pitch eğrisi ve fonem sürelerini bağımsız olarak tahmin eder; tahminler TTS ses üreticisine aktarılır.
  • check_circle Referans Ses Kodlaması (Style Transfer): Referans bir ses dosyasından stil bilgisi gizli vektöre kodlanır. Bu vektör sentez sırasında modele enjekte edilerek hedef ses tonu ve ritmi kopyalanır.
  • check_circle Bağlam Tabanlı Öğrenme: Büyük dil modelleri (LLM), metnin duygusal bağlamını ve cümle yapısını anlayarak prosodi kararlarını doğrudan metin girdisinden üretir. GPT-4o voice modu bu yaklaşımı kullanır.

Türkçe için Prosodi Önemi

Türkçe, sondan eklemeli yapısı nedeniyle standart prosodi modellerinden farklı davranır. Soru ekleri (-mı/-mi/-mu/-mü), fiil çekimleri ve bileşik yapılar özgün vurgu örüntüleri gerektirir. Akademik çalışmalar, Türkçeye özgü prosodi kurallarını TTS sistemlerine entegre etmenin konuşma doğallığını yaklaşık %35 oranında iyileştirdiğini göstermektedir. Whisper gibi modern ASR modelleri de prosodi kalıplarını zımni biçimde modelleyerek Türkçe transkripsiyonun doğruluğunu artırır.

Sıkça Sorulan Sorular

  • check_circle Prosodi ile fonem arasındaki fark nedir?: Fonem, konuşmanın en küçük anlamlı ses birimidir (örn. /p/, /a/). Prosodi ise fonemler arasındaki ton, süre ve enerji ilişkilerini tanımlar; konuşmanın melodisi ve ritmidir.
  • check_circle Prosodi kontrolü neden TTS kalitesi için kritiktir?: Prosodi kontrolü olmadan sentezlenen ses tek düze ve robotik duyulur. İyi bir prosodi modeli cümle tonlamasını, duygusal vurguyu ve konuşma hızını doğru ayarlayarak sesi gerçek insan konuşmasına yaklaştırır.