Audio Codec Nedir? Ses Sikistirma ve Yapay Zeka

Audio Codec Nedir?

Audio codec, ses sinyallerini belirli bir formata kodlayan (sıkıştıran) ve bu formattan geri çözümleyen (açan) yazılım ya da donanım bileşenidir. 'Codec' sözcüğü İngilizce 'coder-decoder' kelimelerinin birleşimidir. Yüksek kaliteli bir ses dosyası çok büyük yer kapladığından, codec'ler hem depolama hem de iletim süreçlerinde verimliliği sağlar. Kayıplı (lossy) codec'ler dosya boyutunu küçültmek için bazı ses bilgilerini atar; kayıpsız (lossless) codec'ler ise orijinal sesi tam olarak korur.

Geleneksel Kodekler

MP3 (1993), AAC (Advanced Audio Coding), Opus ve Vorbis gibi klasik audio codec'ler psikoakustik maskeleme ilkesine dayanır: insan kulağının duyamadığı ya da fark edemeyeceği sesleri budayarak dosya boyutunu küçültür. Opus, düşük gecikme ve yüksek kalite sunması nedeniyle VoIP ve WebRTC alanında standart kodek hâline gelmiştir.

Neural Audio Codec'ler

2021'den itibaren sinir ağı tabanlı (neural) audio codec'ler geleneksel yaklaşımı devirdi. Google'ın SoundStream (2021), Meta'nın EnCodec (2022) ve Descript'in DAC (Descript Audio Codec, 2023) modelleri, evrişimli kodlayıcı-çözücü mimarisi ve Artık Vektör Niceleme (Residual Vector Quantization, RVQ) tekniğini kullanarak çok düşük bit hızlarında (1.5–6 kbps) telefon kalitesinin çok üzerinde ses üretiyor. RVQ, sesi birden fazla codebook katmanında temsil eder; her katman bir öncekinin kalan hatasını düzeltir.

AI ve LLM Entegrasyonu

Neural audio codec'lerin en kritik katkısı, ham ses dalgalarını büyük dil modellerinin işleyebileceği ayrık tokenlere dönüştürmesidir. Bu mekanizmayla çalışan modeller şunlardır: Google'ın AudioLM ve MusicLM'i, Microsoft'un VALL-E metin-konuşma modeli ve Kyutai'nin Moshi'si. Süreç şöyle işler: (1) Giriş sesi codec encoder'dan geçirilir ve token dizisine dönüştürülür; (2) LLM bu tokenleri tahmin eder; (3) Codec decoder tahmin edilen tokenleri ses dalgasına geri çevirir. Bu yaklaşım, metinden ses, sesten ses çevirisi ve ses diyalog sistemleri gibi karmaşık görevleri tek bir model çatısı altında mümkün kılar.

Karşılaştırma: Klasik vs Neural Codec

Geleneksel codec'ler CPU'da milisaniyeler içinde çalışır, basit kural tabanlı algoritmalar kullanır ve ses türünden bağımsız sabit kalite sunar. Neural codec'ler ise GPU hızlandırması gerektirebilir, ancak çok daha düşük bit hızlarında daha doğal ses üretir ve gürültülü, bozulmuş ses gibi uç durumlarda çok daha güçlüdür. Özellikle konuşma sentezi ve müzik üretimi uygulamalarında neural codec'ler artık sektör standardı hâline gelmektedir.