Audio Codec Nedir? Ses Sıkıştırma ve Yapay Zeka (Audio Codec)

Ses verilerini sıkıştırmak ve geri açmak için kullanılan bileşen; modern AI sistemlerinde sinir ağı tabanlı kodekler metin-ses ve ses üretimi modellerinin temelini oluşturur.

Audio codec (ses kodek), analog veya dijital ses sinyallerini verimli biçimde kodlayan (sıkıştıran) ve çözümleyen yazılım ya da donanım bileşenidir. 'Codec' sözcüğü 'coder-decoder' kelimelerinin kısaltmasıdır. MP3, AAC ve Opus gibi geleneksel kodekler, insan işitme sisteminin sınırlarını (psikoakustik maskeleme) kullanarak ses dosyalarını küçültür. 2021'den itibaren sinir ağı tabanlı neural audio codec'ler bu alanda devrim yarattı; Google'ın SoundStream, Meta'nın EnCodec ve Descript'in DAC modelleri, çok katmanlı evrişimli ağlar ve artık vektör niceleme (Residual Vector Quantization, RVQ) tekniğiyle geleneksel kodeklerden çok daha düşük bit hızlarında yüksek kaliteli ses üretiyor. AI alanında audio codec'ler, büyük dil modellerinin ses tokenleri üretmesinde kritik bir ara katman görevi görür: ham ses dalgaları önce codec tarafından ayrık tokenlere dönüştürülür, ardından dil modeli bu tokenleri tahmin eder ve codec geri ses dalgasına çevirir.

Audio Codec Nedir?

Audio codec, ses sinyallerini belirli bir formata kodlayan (sıkıştıran) ve bu formattan geri çözümleyen (açan) yazılım ya da donanım bileşenidir. 'Codec' sözcüğü İngilizce 'coder-decoder' kelimelerinin birleşimidir. Yüksek kaliteli bir ses dosyası çok büyük yer kapladığından, codec'ler hem depolama hem de iletim süreçlerinde verimliliği sağlar. Kayıplı (lossy) codec'ler dosya boyutunu küçültmek için bazı ses bilgilerini atar; kayıpsız (lossless) codec'ler ise orijinal sesi tam olarak korur.

Geleneksel Kodekler

MP3 (1993), AAC (Advanced Audio Coding), Opus ve Vorbis gibi klasik audio codec'ler psikoakustik maskeleme ilkesine dayanır: insan kulağının duyamadığı ya da fark edemeyeceği sesleri budayarak dosya boyutunu küçültür. Opus, düşük gecikme ve yüksek kalite sunması nedeniyle VoIP ve WebRTC alanında standart kodek hâline gelmiştir.

Neural Audio Codec'ler

2021'den itibaren sinir ağı tabanlı (neural) audio codec'ler geleneksel yaklaşımı devirdi. Google'ın SoundStream (2021), Meta'nın EnCodec (2022) ve Descript'in DAC (Descript Audio Codec, 2023) modelleri, evrişimli kodlayıcı-çözücü mimarisi ve Artık Vektör Niceleme (Residual Vector Quantization, RVQ) tekniğini kullanarak çok düşük bit hızlarında (1.5–6 kbps) telefon kalitesinin çok üzerinde ses üretiyor. RVQ, sesi birden fazla codebook katmanında temsil eder; her katman bir öncekinin kalan hatasını düzeltir.

AI ve LLM Entegrasyonu

Neural audio codec'lerin en kritik katkısı, ham ses dalgalarını büyük dil modellerinin işleyebileceği ayrık tokenlere dönüştürmesidir. Bu mekanizmayla çalışan modeller şunlardır: Google'ın AudioLM ve MusicLM'i, Microsoft'un VALL-E metin-konuşma modeli ve Kyutai'nin Moshi'si. Süreç şöyle işler: (1) Giriş sesi codec encoder'dan geçirilir ve token dizisine dönüştürülür; (2) LLM bu tokenleri tahmin eder; (3) Codec decoder tahmin edilen tokenleri ses dalgasına geri çevirir. Bu yaklaşım, metinden ses, sesten ses çevirisi ve ses diyalog sistemleri gibi karmaşık görevleri tek bir model çatısı altında mümkün kılar.

Karşılaştırma: Klasik vs Neural Codec

Geleneksel codec'ler CPU'da milisaniyeler içinde çalışır, basit kural tabanlı algoritmalar kullanır ve ses türünden bağımsız sabit kalite sunar. Neural codec'ler ise GPU hızlandırması gerektirebilir, ancak çok daha düşük bit hızlarında daha doğal ses üretir ve gürültülü, bozulmuş ses gibi uç durumlarda çok daha güçlüdür. Özellikle konuşma sentezi ve müzik üretimi uygulamalarında neural codec'ler artık sektör standardı hâline gelmektedir.