0
| 本文作者: 陳淑瑜 | 2026-04-24 15:23 | 專題:CVPR 計算機視覺與模式識別會議 |
3D 高斯?jié)姙R(3DGS)憑借其高質(zhì)量實時渲染能力,已成為新視角合成領(lǐng)域的主流方法。然而隨著各類變體涌現(xiàn),學(xué)術(shù)界面臨一個困境:這些工作往往混雜了實現(xiàn)層面的工程優(yōu)化與算法層面的創(chuàng)新,導(dǎo)致難以公平評估哪些改進真正有價值,學(xué)術(shù)比較缺乏統(tǒng)一基準。
與此同時,3DGS 的訓(xùn)練耗時(通常30分鐘以上)成為快速迭代實驗的瓶頸,顯存占用(12GB+)也限制了其在低資源環(huán)境下的應(yīng)用。社區(qū)急需一個集成了所有有效訓(xùn)練加速技巧、標準化的高性能基線——既不改變核心算法,又能大幅提升效率。
Faster-GS 應(yīng)運而生,定位為不犧牲質(zhì)量、不改寫核心算法、僅通過工程與數(shù)值優(yōu)化來提速的新標桿,為后續(xù) 3DGS 變體研究提供了可靠的效率對比基準。
Faster-GS 的優(yōu)化策略圍繞減少內(nèi)存訪問和提高計算效率兩條主線展開,分為三個層次:
第一層:基礎(chǔ)實現(xiàn)穩(wěn)定性改進修復(fù)了原始3DGS反向傳播中的數(shù)值穩(wěn)定性問題(精細處理退化四元數(shù)、使用從前往后的 Alpha Blending 梯度計算),并優(yōu)化了顯存中2D均值梯度和可見性掩碼的顯式處理,為上層優(yōu)化奠定基礎(chǔ)。
第二層:整合近期最優(yōu)改進系統(tǒng)整合了社區(qū)內(nèi)已驗證有效的改進:采用軸對齊矩形加不透明度截斷的緊致包圍盒,引入類似 StopThePop 的 Tile 精確剔除,借鑒 SplatShop 的兩階段排序,以及 Taming-3DGS 風格的按高斯并行反傳(原子操作減少256倍)并配合共享內(nèi)存進一步降低開銷。
第三層:新型細化優(yōu)化(核心貢獻)
(1)融合 Adam 更新:開發(fā)自定義 CUDA 融合 Adam 實現(xiàn),利用快速數(shù)學(xué)運算和 FMA 指令加速參數(shù)更新;
(2)局部性保持增密:定期對高斯進行 Z-order(Morton Code)排序,確??臻g相鄰的數(shù)據(jù)在內(nèi)存中也相鄰,顯著提升緩存命中率;
(3)反傳與優(yōu)化器完全融合:將參數(shù)更新直接融合進反向傳播 Kernel,省去單獨調(diào)用優(yōu)化器 Step() 的開銷及額外梯度存儲緩沖區(qū)。

亮點一:最高5倍訓(xùn)練加速,質(zhì)量零損失在 Mip-NeRF 360 數(shù)據(jù)集 RTX 4090 測試中,F(xiàn)aster-GS 相比原始 3DGS 平均加速 4.1倍,特定場景峰值超過 5.2倍,平均重建時間縮短至約 163 秒。而在此過程中,高斯的質(zhì)量和數(shù)量完全不變,視覺效果完整保持,實現(xiàn)了魚與熊掌兼得。
亮點二:顯存占用減少約30%通過兩階段排序和反傳優(yōu)化器融合等技術(shù),顯存使用量減少約 30%,有效拓展了3DGS在資源受限硬件上的應(yīng)用范圍,為邊緣端部署奠定基礎(chǔ)。
亮點三:無縫擴展至4D動態(tài)場景論文展示了 Faster-GS 可無縫遷移到 4D Gaussian Splatting(動態(tài)場景),說明其優(yōu)化思路具有良好的通用性和可擴展性,為3DGS在視頻和動態(tài)場景領(lǐng)域的應(yīng)用提供了高效引擎,是 3DGS 研究者不可多得的工程范本。
──────────────────────────────────────────
上述內(nèi)容包含AI輔助生成,更詳細信息參見兩個鏈接
原文鏈接:https://fhahlbohm.github.io/faster-gaussian-splatting
解讀來源:https://blog.csdn.net/qq_60587145/article/details/158742148
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章