Neural TTS (Nöral TTS (Sinir Ağı Tabanlı Metin-Ses Dönüşümü))
Nöral TTS (Neural Text-to-Speech), derin öğrenme modelleri kullanarak yazılı metni doğal sesli konuşmaya dönüştüren teknolojidir. Kural tabanlı sentezleyicilerin (formant synthesis) ya da ardışık birleştirme (concatenative synthesis) yöntemlerinin aksine nöral TTS, büyük miktarda konuşma verisi üzerinde eğitilen uçtan uca sinir ağlarıyla insan sesine yakın kalite üretir.
Modern nöral TTS mimarileri genellikle iki bileşenden oluşur: bir akustik model (metni mel-spektrograma dönüştürür) ve bir vokoder (mel-spektrogramı ses dalgasına dönüştürür). Tacotron 2, FastSpeech 2 ve VITS gibi akustik modeller; WaveNet, HiFi-GAN ve BigVGAN gibi vokoderler bu alanlardaki önemli örneklerdir. Güncel end-to-end modeller bu iki aşamayı tek bir modelde birleştirebilir.
Ses klonlama (voice cloning) uygulamaları nöral TTS'in en dikkat çekici kullanım alanlarından biridir. ElevenLabs gibi platformlar, yalnızca birkaç saniyelik ses örneğiyle yüksek kaliteli kişiselleştirilmiş sesler üretebilir. OpenAI TTS, Google WaveNet ve Microsoft Azure TTS bu teknolojiyi bulut API'leri olarak sunar. Duygusal ton, vurgu ve konuşma hızı kontrolü modern nöral TTS sistemlerinin standart özellikleri arasındadır.