Speech Synthesis (Konuşma Sentezi)

Metin girdisini insan sesine benzeyen doğal ses çıktısına dönüştüren yapay zeka teknolojisi; TTS (Text-to-Speech) olarak da bilinir.

Konuşma sentezi (Speech Synthesis veya TTS — Text-to-Speech), yazılı metnin yapay zeka modelleri aracılığıyla sesli konuşmaya dönüştürülmesi sürecidir. Modern TTS sistemleri, insan sesine yakın doğallık ve ifadesellik sunar; vurgu, ritim, ton ve duygusal renk gibi konuşma özelliklerini derin öğrenme modelleriyle üretir. Günümüz nöral TTS sistemleri iki temel aşamadan oluşur: Akustik model, metni ses özelliklerini temsil eden mel-spektrograma dönüştürür; Vokal sentezleyici (vocoder) ise bu ara temsili gerçek ses dalgasına çevirir. WaveNet (DeepMind, 2016), Tacotron 2 (Google, 2018) ve FastSpeech (Microsoft, 2019) bu alandaki dönüşüm yaratan modellerdir. VALL-E gibi büyük dil modeli tabanlı yaklaşımlar ise yalnızca birkaç saniyelik ses örneğinden birebir ses klonlama yapabilmektedir. Kullanım alanları ekran okuyuculardan sesli asistanlara, e-öğrenmeden müşteri hizmetleri otomasyonuna kadar uzanır. Teknolojinin gerçekçilik düzeyi deepfake ses ve kimlik taklitçiliği risklerini de beraberinde getirdiğinden, ses sahteciliği tespiti (anti-spoofing) araştırmaları da paralel olarak gelişmektedir.