Gaussian Splatting Nedir? Gerçek Zamanlı 3D Sahne Sentezi (Gaussian Splatting)

#3D #görüntü sentezi #gerçek zamanlı #bilgisayarlı görü #NeRF #SIGGRAPH

3D sahneleri milyonlarca Gauss elipsoidiyle temsil ederek GPU üzerinde 100+ FPS gerçek zamanlı fotorealistik görüntü sentezi sağlayan SIGGRAPH 2023 yöntemi.

3D Gaussian Splatting (3DGS), Inria araştırmacıları tarafından SIGGRAPH 2023'te sunulan ve sahneleri milyonlarca 3D Gauss elipsoidi olarak temsil eden bir gerçek zamanlı görüntüleme yöntemidir. Her bir Gaussian; 3D uzaydaki konumu, yönelimi, boyutu, rengi (SH — Spherical Harmonics) ve opaklığı gibi özelliklerle tanımlanır. Eğitim aşamasında COLMAP ile elde edilen nokta bulutundan başlanarak bu Gaussianlar, çok açılı girdi görüntüleriyle uyumlu olacak şekilde optimize edilir. Render aşamasında GPU rasterizasyonu kullanılarak tüm Gaussianlar ekrana 'splatlanır' ve alfa-karışım (alpha blending) ile fotorealistik çıktı üretilir. NeRF'e kıyasla 100+ FPS hızında işleme, dakikalar içinde eğitim süresi ve 25-33 dB PSNR görsel kalitesiyle 3DGS, bilgisayarlı görü alanında çığır açan bir teknik haline gelmiştir.

Temel Çalışma Prensibi

3DGS, bir sahneyi sürekli bir sinir ağı fonksiyonu olarak değil, ayrık Gauss elipsoidlerinin koleksiyonu olarak modelleyen eksplisit bir yöntemdir. Her Gaussian; merkez noktası (μ), kovaryans matrisi (şekil ve yön), opaklık (α) ve görünüme bağlı renk bilgisi (Spherical Harmonics katsayıları) ile tanımlanır. Eğitim, COLMAP ile üretilen seyrek nokta bulutundan başlar ve stochastic gradient descent ile Gaussianlar optimize edilir. Yoğun bölgelerde yeni Gaussianlar klonlanır veya bölünür, silik olanlar ise budanır.

NeRF ile Karşılaştırma

NeRF, sahneyi implicit bir sinir ağıyla kodlar ve her piksel için yüzlerce nokta üzerinden ışın yürüyüşü (ray marching) yapar; bu da yüksek hesaplama maliyeti getirir (~5 FPS). 3DGS ise GPU'nun hızlandırılmış rasterizasyon pipeline'ını kullanır ve Gaussianlar doğrudan ekrana projekte edilir. Sonuç: 100+ FPS, 30-45 dakika eğitim ve NeRF'le karşılaştırılabilir ya da daha yüksek PSNR değerleri. Dezavantaj olarak 3DGS daha fazla GPU belleği tüketir (Gaussian başına ~60 byte).

Uygulama Alanları

3DGS, VR/AR uygulamalarında sahne kopyalama, filmcilik sektöründe dijital set oluşturma, otonom araçlarda simülatör ortamı üretme ve e-ticarette 3D ürün görselleştirmede kullanılmaktadır. Polycam, Luma AI ve DJI Terra gibi profesyonel araçlar 3DGS'yi yerel olarak desteklemektedir. COLMAP-Free varyantlar ise kamera pozunu önceden bilmeden ardışık karelerden 3D sahne oluşturmayı mümkün kılar.

Sınırlılıklar ve Gelecek

3DGS'nin başlıca sınırlılıkları; yüzey keskinliğinin düşük olabilmesi, dinamik sahnelerin zorluğu ve büyük sahnelerde bellek tüketiminin artmasıdır. 4D Gaussian Splatting, dinamik nesneleri zamanla değişen Gaussianlar olarak modelleyerek bu sorunu çözmeye çalışmaktadır. Gaussian Opacity Fields ve GaussianCity gibi genişlemeler ise mesh çıkarma ve kentsel ölçekli 3D rekonstrüksiyona yönelik araştırmaları sürdürmektedir.