--- tags: [2025_Spring, Speech] --- # Recent Results on 3D Vision in Dynamic Scenes ## MonST3R [Arxiv](https://arxiv.org/abs/2410.03825) DUSt3R 只適合靜態場景。但實際上在物品有在動的情況也還算能用 需要分辨背景與物品 使用一些合成的資料 拍遠景時有人從前面經過,不同焦距、運動ㄊ造成的模糊也是 MonST3R 比較會處理 ### Inference Optimization 一段影片中用 sliding window,抽出一些幀跑 DUSt3R。 #### Loss * align,多個 view 的結果應該類似 * smooth,相機的移動應該要很流暢,沒有劇烈變動 * flow,相機動作應該與背景的移動方式一致 ### 還需要改進的 很遠的地方拍的影像 有太多遮蔽還是會爛掉 沒有考慮物品的種類,用夠多資料就可以學會 都視為剛性物體,會形變可能會很麻煩 ## No Pose No Problem [Arxiv](https://arxiv.org/abs/2410.24207) 3D Gaussian splatting 比起 NERF 很有效率,但可能比較不精準 很依賴相機的位置,這很煩。 從 DUSt3R 提取靈感,就算沒有很多重疊也能做。 DUSt3R 是用 point cloud,很需要知道 Depth map,而且是離散的。 可以用 [MASt3R](https://arxiv.org/abs/2406.09756) 訓練 ViT Encoder。 ## Gaga Group Gaussians [Arxiv](https://arxiv.org/abs/2404.07977) 3D-aware Memory Bank,把兩張圖內對應的點找出來並對應 ## FaceLift [Arxiv](https://arxiv.org/abs/2412.17812) 一張人臉照片變成高解析 3D 模型,只花五秒。 只在合成資料上訓練,但現實也不錯 ## QA ### 對 ChatGPT 的看法 調侃 ChatGPT 是 Closed。ChatGPT 全部人都做同一個主題,教授覺得 Data 夠就行了。 ### 怎麼想出主題 題目都是學生想出來的,都是花很多時間做,還是得靠學生。 美國很多教授專職就在找錢,沒時間管學生。 做不出東西的學生自然會被淘汰,很殘酷