tag SesİşlemeDerin

Bu sayfada SesİşlemeDerin etiketi ile işaretlenmiş tüm yapay zeka kavramlarını inceliyorsunuz.

Speaker Diarization (Konuşmacı Ayrıştırma)

Konuşmacı Ayrıştırma (Speaker Diarization), bir ses kaydındaki farklı konuşmacıları otomatik olarak tanıyıp birbirinden ayıran ve her konuşmacının konuştuğu zaman dilimlerini etiketleyen yapay zeka teknolojisidir. Latince'de 'günlük' anlamına gelen 'diarize' kelimesinden türeyen bu terim, çok kişili ses kayıtlarını 'Kim ne zaman konuştu?' sorusunu yanıtlayacak biçimde bölümlere ayırmayı amaçlar. Bir ses kaydında birden fazla kişi konuştuğunda sistematik analiz yapmak güçleşir. Toplantı transkriptleri, çağrı merkezi kayıtları, röportajlar ve podcast'ler gibi içeriklerde hangi cümlenin hangi kişiye ait olduğunu bulmak emek yoğun bir süreçtir. Speaker diarization, bu süreci otomatikleştirir. Teknik olarak sistem; önce ses etkinlik tespiti (VAD) ile sessizlik ve konuşma bölgelerini ayırır, ardından konuşmacı gömme vektörü (speaker embedding) çıkarımı ile her bölümün konuşmacı parmak izini hesaplar ve son olarak kümeleme algoritmaları ile aynı kişiye ait bölümleri bir araya getirir. x-vector, d-vector ve ECAPA-TDNN gibi nöral gömme modelleri modern sistemlerin omurgasını oluşturmaktadır. Whisper gibi ASR modellerine ve NLP pipeline'larına entegre edilen speaker diarization, transkripsiyon çıktılarını yapılandırılmış, konuşmacı etiketli belgelere dönüştürür. pyannote.audio, NVIDIA NeMo ve AssemblyAI bu alanda öne çıkan açık kaynaklı ve ticari araçlardır. Hata metrikleri olarak DER (Diarization Error Rate) ve JER (Jaccard Error Rate) kullanılmakta; sektörde %5-15 DER aralığı iyi performans olarak kabul edilmektedir.

arrow_forward