tag DikkatMekanizmasi

Attention (Dikkat Mekanizması) (Dikkat Mekanizması)

Bu sayfada DikkatMekanizmasi (Attention (Dikkat Mekanizması) (Dikkat Mekanizması)) etiketi ile işaretlenmiş 1 yapay zeka kavramını bulabilirsiniz.

Attention (Dikkat Mekanizması), bir sinir ağının çıktı üretirken giriş dizisinin hangi bölümlerine ne ölçüde odaklanacağını dinamik olarak öğrenen nöral ağ bileşenidir. 2014'te makine çevirisi için önerilen temel dikkat mekanizması, 2017'de 'Attention Is All You Need' makalesiyle Transformer mimarisinin çekirdeğine dönüştü ve modern yapay zekanın en dönüştürücü bileşeni haline geldi. Dikkat mekanizmasının temel sezgisi, insan dikkatini taklit etmektir: cümledeki her kelimeye eşit ağırlık vermek yerine, o anki tahmin için en ilgili kelimeleri daha yüksek ağırlıkla değerlendirmek. Matematiksel olarak üç matris kullanılır: Sorgu (Query, Q), Anahtar (Key, K) ve Değer (Value, V). Q ile K'nın nokta çarpımı yumuşatılmış maksimum (softmax) fonksiyonundan geçirilerek dikkat ağırlıkları elde edilir; bu ağırlıklar V matrisinin ağırlıklı toplamını belirler: Attention(Q, K, V) = softmax(QK^T / √d_k) × V. Öz-dikkat (self-attention), bir dizinin kendi içindeki öğeler arasındaki bağımlılıkları modelleyerek çalışır; GPT ve BERT bu mekanizmayı kullanır. Çapraz dikkat (cross-attention) ise farklı iki dizinin öğelerini ilişkilendirir; kodlayıcı-çözücü modellerinde sorgu çözücüden, anahtar/değer çiftleri kodlayıcıdan gelir. Çok başlı dikkat (multi-head attention), birden fazla dikkat başını paralel çalıştırarak farklı ilişki alt uzaylarını eş zamanlı öğrenir. Dikkat mekanizması, konum bilgisini doğrudan içermez; bu nedenle Transformer'lara konumsal kodlama eklenir. Flash Attention gibi bellek-etkin uygulamalar uzun bağlam pencerelerini mümkün kılarken kayan pencere dikkat (sliding window attention) yerel bağımlılıklara odaklanarak hesaplama karmaşıklığını düşürür.

center_focus_strong

Attention (Dikkat Mekanizması) (Dikkat Mekanizması)

Attention (Dikkat Mekanizması), bir sinir ağının çıktı üretirken giriş dizisinin hangi bölümlerine ne ölçüde odaklanacağını dinamik olarak öğrenen nöral ağ bileşenidir. 2014'te makine çevirisi için önerilen temel dikkat mekanizması, 2017'de 'Attention Is All You Need' makalesiyle Transformer mimarisinin çekirdeğine dönüştü ve modern yapay zekanın en dönüştürücü bileşeni haline geldi. Dikkat mekanizmasının temel sezgisi, insan dikkatini taklit etmektir: cümledeki her kelimeye eşit ağırlık vermek yerine, o anki tahmin için en ilgili kelimeleri daha yüksek ağırlıkla değerlendirmek. Matematiksel olarak üç matris kullanılır: Sorgu (Query, Q), Anahtar (Key, K) ve Değer (Value, V). Q ile K'nın nokta çarpımı yumuşatılmış maksimum (softmax) fonksiyonundan geçirilerek dikkat ağırlıkları elde edilir; bu ağırlıklar V matrisinin ağırlıklı toplamını belirler: Attention(Q, K, V) = softmax(QK^T / √d_k) × V. Öz-dikkat (self-attention), bir dizinin kendi içindeki öğeler arasındaki bağımlılıkları modelleyerek çalışır; GPT ve BERT bu mekanizmayı kullanır. Çapraz dikkat (cross-attention) ise farklı iki dizinin öğelerini ilişkilendirir; kodlayıcı-çözücü modellerinde sorgu çözücüden, anahtar/değer çiftleri kodlayıcıdan gelir. Çok başlı dikkat (multi-head attention), birden fazla dikkat başını paralel çalıştırarak farklı ilişki alt uzaylarını eş zamanlı öğrenir. Dikkat mekanizması, konum bilgisini doğrudan içermez; bu nedenle Transformer'lara konumsal kodlama eklenir. Flash Attention gibi bellek-etkin uygulamalar uzun bağlam pencerelerini mümkün kılarken kayan pencere dikkat (sliding window attention) yerel bağımlılıklara odaklanarak hesaplama karmaşıklığını düşürür.

arrow_forward