## 論文:FiG-NeRF: Figure-Ground Neural Radiance Fields for 3D Object Category Modelling ## 論文主題: 提出一種能自行訓練區分object及background而不需要supervision(ground truth/label)的3D建模演算法FiG-NeRF ## 論文大致想法: 由於我們拍攝的物體與其背景搭配會有一定的邏輯(如物體:杯子->背景:桌子、物體:眼鏡->背景:人臉)因此能夠透過機器學習和修改原本NeRF中的演算法做到自行判斷background和object(conditional NeRF)並完成3D建模 **大致方向**: 1. dataset需求:一組包含不同拍攝角度的背景和物體照片、一組只有背景的照片 2. 使用generative latent optimization (GLO)來訓練出不同的背景和物體latent code(如不同顏色的桌子搭配不同顏色的眼鏡、不同形狀的桌子搭配不同形狀的眼鏡)以達到即使背景變了也能分辨出來 **注意**:雖然顏色及形狀等外表因素能變,但還是只能訓練出與使用的dataset特徵相同的物體 3. 分別使用兩個NeRF模型來建立backgrond及object模型 4. 在訓練模型中加入不同loss function(Photometric Loss、Separation Regularization、Deformation Regularization)使其能夠分離background和object,以及能夠消除照片中物體的陰影 ## 論文結果: 用了三種dataset分別是車子、眼鏡、杯子  FID:代表「Fréchet Inception Distance」,是一種用於評估生成模型生成圖像質量的指標,FID的值越低,表示生成的圖像質量越好,因為它們與真實圖像的特徵分佈越相似。 PSNR:代表「峰值信噪比」(Peak Signal-to-Noise Ratio),是一種用於衡量圖像或視頻質量的指標, PSNR的值越高,表示圖像質量的失真程度越小。 SSIM:代表「結構相似性指標」(Structural Similarity Index),是一種用於衡量圖像相似性的指標,SSIM的計算結果是一個介於-1和1之間的值,其中1表示兩幅圖像完全相同,而-1表示兩幅圖像完全不同。 LPIPS:代表「學習的感知圖像補丁相似度」(Learned Perceptual Image Patch Similarity),是一種用於衡量圖像之間感知相似性的指標,它使用了深度學習模型學習的高級特徵。與傳統的像素級別相似性度量相比,能夠更好地反映人眼對圖像差異的感知,越低代表與原圖越相似。 IoU:是指交集比聯集(Intersection over Union),是一種用於評估目標檢測或分割算法性能的指標,IoU的值範圍在0到1之間,值越高表示預測結果與真實標籤之間的重疊程度越高。 ## 總結: **優點:** 1. 在訓練時能簡單且隨意地加入dataset並有效分離background和object,而不用先打label進行supervised 2. 能對不同背景的物體進行建模,不像傳統NeRF只能對單一場景物體進行建模 **缺點:** 1. background不能使用有複雜花紋,否則會無法有效分離  2. object的顏色不能與background太相似,否則也無法有效分離 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up