Voice Activity Detection (VAD) Nedir? | Yapay Zeka Sözlük

VAD Nasıl Çalışır?

VAD sistemleri, gelen ses sinyalini kısa zaman dilimleri (frame) halinde — genellikle 10-30 ms — analiz eder. Her dilim için bir özellik vektörü çıkarılır: enerji, sıfır geçiş hızı (ZCR), mel-frekans kepstral katsayıları (MFCC) veya derin öğrenme özellik temsilleri bunların başında gelir. Geleneksel yöntemlerde bu özellikler kural tabanlı eşiklere göre değerlendirilirdi. Modern derin öğrenme yaklaşımlarında ise model, bu dilimler üzerinde ikili sınıflandırma yapar: 0 (sessizlik/gürültü) veya 1 (konuşma). LSTM gibi özyinelemeli ağlar, uzun bağımlılıkları modelleyerek yavaş başlangıç veya şaşırma anlık sessizlikleri gibi kenar durumları daha doğru yakalar.

Kullanım Alanları

check_circle Otomatik Konuşma Tanıma (ASR): Konuşma olmayan bölümleri filtreleyerek tanıma motoruna yalnızca anlamlı ses segmentlerini ileterek doğruluk ve verimlilik artışı sağlar.
check_circle Konuşmacı Ayrıştırma (Speaker Diarization): Toplantı kayıtlarında farklı konuşmacıları segmentlere ayırmadan önce VAD ile aktif bölgeler belirlenir.
check_circle VoIP ve Telekonferans: Sessiz dilimler sırasında ses paketi gönderilmeyerek bant genişliği %50'ye kadar azaltılabilir ve yankı bastırma kolaylaşır.
check_circle Uyandırma Kelimesi Tespiti: Alexa veya OK Google gibi sistemlerde cihaz sadece VAD aktif olduğunda uyandırma modelini çalıştırarak pil ömrünü korur.
check_circle Ses Transkripsiyonu ve Altyazı: Uzun podcast veya video içeriklerini VAD ile parçalara bölerek her segmenti paralel işlemek transkripsiyon süresini önemli ölçüde kısaltır.

Geleneksel ve Derin Öğrenme Yaklaşımları

Eşik Tabanlı VAD

Enerji veya ZCR değerleri elle belirlenen eşiğin üzerindeyse konuşma kabul edilir. Hızlı ve düşük maliyetlidir; ancak gürültülü ortamlarda çok hataya açıktır.

Gaussian Mixture Model (GMM)

Konuşma ve gürültü seslerini ayrı GMM'lerle modeller. Geleneksel yöntemler arasında en yaygın kullanılanıdır; gürültü adaptasyonu mümkündür.

DNN/LSTM Tabanlı VAD

Log-Mel spektrogramlar veya MFCC'ler üzerinde eğitilen derin ağlar, karmaşık ortam koşullarında güvenilir sınıflandırma yapar. Silero VAD bu kategoridedir.

Transformer Tabanlı VAD

pyannote.audio gibi sistemler, ses akışını tüm bağlamıyla işleyen dikkat mekanizmaları kullanarak segment sınırlarını milisaniye hassasiyetinde belirler.

Sıkça Sorulan Sorular

check_circle VAD neden ASR'dan ayrı bir bileşen olarak kullanılır?: ASR motorları her zaman ses beklentisiyle çalışır; VAD olmadan sessiz veya gürültülü segmentlerde yanlış transkripsiyonlar üretirler. Ayrıca VAD çok daha düşük hesaplama maliyetiyle çalışarak ASR'ı yalnızca anlamlı bölümlerde tetikler, bu da sistem verimliliğini önemli ölçüde artırır.
check_circle Silero VAD ve WebRTC VAD arasındaki temel fark nedir?: WebRTC VAD, Google'ın enerji ve GMM tabanlı klasik bir uygulamasıdır; çok düşük gecikmeli ve yerleşik sistemlere uygundur ancak gürültülü ortamlarda hassasiyeti düşer. Silero VAD ise LSTM tabanlı modern bir modeldir; gürültüye çok daha dayanıklıdır ve küçük boyutuna karşın doğruluk açısından WebRTC VAD'ı genellikle geride bırakır.
check_circle VAD hassasiyeti (sensitivity) nasıl ayarlanır?: Çoğu VAD kütüphanesinde eşik parametresi (threshold) ile hassasiyet ayarlanır. Düşük eşik değeri daha fazla bölgeyi konuşma olarak işaretler (yüksek recall, düşük precision); yüksek eşik ise tam tersi davranır. Kullanım senaryosuna göre — örneğin gürültülü toplantı vs. stüdyo kaydı — bu değer dengelenmek zorundadır.
check_circle VAD gerçek zamanlı sistemlerde nasıl entegre edilir?: Gerçek zamanlı sistemlerde VAD, ses akışını küçük tampon dilimler (10-30 ms) halinde alır ve her dilim için ikili karar üretir. WebSocket veya gRPC üzerinden akış tabanlı mimarilerde VAD çıktısı doğrudan ASR veya diarization servisine iletilir. Gecikme bütçesi genellikle toplam 50-100 ms içinde tutulmak zorundadır.