tag Konuşmaİyileştirme

Bu sayfada Konuşmaİyileştirme etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.

Konuşma İyileştirme (Speech Enhancement), gürültülü ortamlarda kaydedilen ya da iletilen ses sinyallerinin kalitesini yapay zeka ve derin öğrenme yöntemleriyle artırma sürecidir. Geleneksel istatistiksel yaklaşımlar (Wiener filtresi, MMSE gibi) sabit gürültü modellerini varsayarken, derin öğrenme tabanlı modeller değişken ve karmaşık gürültü koşullarında da etkili biçimde çalışabilmektedir. Modern sistemler; evrişimli sinir ağları (CNN), tekrarlayan sinir ağları (RNN, LSTM), üretken çekişmeli ağlar (GAN) ve Transformer mimarilerini tek başına ya da hibrit olarak kullanmaktadır. Bu ağlar, eğitim aşamasında binlerce gürültülü ve temiz ses çifti üzerinde optimize edilen bir dönüşüm fonksiyonunu öğrenerek gerçek zamanlı gürültü giderme yapabilmektedir. Tipik bir işlem hattında ses sinyali kısa zamanlı Fourier dönüşümüyle (STFT) frekans-zaman bölgesine aktarılır, sinir ağı tarafından işlenir ve ters dönüşümle (iSTFT) yeniden zaman bölgesine döndürülür. Kalite değerlendirmesi için standart metrikler kullanılmaktadır: PESQ (Perceptual Evaluation of Speech Quality) genel ses kalitesini, STOI (Short-Time Objective Intelligibility) anlaşılırlığı, CSIG ve CBAK ise arka plan gürültüsünün müdahalesini ve konuşma bozulmasını ölçer. DeepFilterNet gibi ileri düzey modeller PESQ skorunu 3.17 seviyesine çıkarırken işlem yükünü mobil cihazlarda kullanılabilir düzeyde tutmaktadır. Uygulama alanları son derece geniştir: video konferans yazılımları, akıllı hoparlörler ve sesli asistanlar, işitme cihazları, otomatik altyazı sistemleri, radyo yayıncılığı ve sağlık kayıt sistemleri bu teknolojiden yoğun olarak yararlanmaktadır. Konuşma tanıma (ASR) sistemlerinin ön işleme adımı olarak kullanılması, gürültülü ortamlarda tanıma doğruluğunu belirgin şekilde artırmaktadır.

graphic_eq

Speech Enhancement (Konuşma İyileştirme)

arrow_forward