Voice Conversion (Ses Dönüştürme)
Ses dönüştürme (Voice Conversion), kaynak konuşmacıya ait bir ses kaydındaki dilsel içeriği — söylenen kelimeler ve ifadeler — koruyarak ses tonu, tını, formantlar ve fonetik özellikleri hedef konuşmacının sesine benzeyecek şekilde dönüştüren yapay zeka teknolojisidir.
Ses klonlamadan (voice cloning) temel farkı şudur: ses klonlama hedef kişinin sesini sıfırdan yeni cümleler için sentezlerken, ses dönüştürme mevcut bir konuşmayı girdi olarak alır ve o konuşmadaki kimliği hedef konuşmacıya değiştirir; söylenen kelimeler değişmez.
Derin öğrenme öncesi dönemde ses dönüştürme, GMM (Gaussian Mixture Models) ve CycleGAN tabanlı yöntemlerle gerçekleştiriliyordu. Günümüzde ise VAE (Variational Autoencoder), difüzyon modelleri ve DDSP-SVC (Differentiable Digital Signal Processing - Singing Voice Conversion) gibi mimariler çok daha doğal ve gerçekçi sonuçlar üretmektedir.
Bir ses dönüştürme sisteminin çalışma prensibi tipik olarak üç aşamadan oluşur: (1) Özellik çıkarma — kaynak sesin mel-spektrogramı, temel frekansı (F0) ve fonetik içeriği HuBERT gibi öz-denetimli modellerle ayrıştırılır; (2) Konuşmacı dönüşümü — kaynak konuşmacıya özgü tını özellikleri, hedef konuşmacının öğrenilmiş ses uzayına eşlenir; (3) Yeniden sentez — dönüştürülmüş özelliklerden HiFi-GAN gibi nöral vocoderlarla ses dalgası üretilir.
2023 yılında açık kaynak olarak yayımlanan RVC (Retrieval-based Voice Conversion), bu teknolojiyi geniş kitlelere erişilebilir kılan önemli bir araç haline gelmiştir. ContentVec özellikleri ve k-NN geri alma yöntemine dayanan RVC, düşük gecikme ve yüksek kalitesiyle öne çıkmaktadır. 2026 itibarıyla sıfır-shot ses dönüştürme — önceden herhangi bir eğitim gerektirmeden yalnızca birkaç saniyelik referans ses kaydıyla dönüşüm yapabilme — araştırma gündeminin ön sıralarındadır. Gerçek zamanlı uygulamalar oyun endüstrisinde, çevrimiçi toplantılarda, erişilebilirlik çözümlerinde ve ses gizleme senaryolarında giderek yaygınlaşmaktadır.