Colorful Image Colorization

# Colorful Image Colorization ###### tags: `paper` `colorization` 論文閱讀 (ECCV 2016)，cited:1530 https://github.com/richzhang/colorization ## Contribution - 設計loss function來處理著色問題中的multimodal (單一物體可以有多種上色可能)，使上色有多樣性及合理性，而結果是否為ground truth則不是重點。 >For this paper, our goal is not necessarily to recover the actual ground truth color, but rather to produce a plausible colorization that could potentially fool a human observer. - 上色任務轉換為self-supervised feature learning，並在一些benchamrks中達到頂尖水平。 ## Inspiration 作者認為傳統使用歐基里德距離(MSE)來計算Ground truth與predict的結果，會導致顏色飽和度不高、色彩不豐富。為了multimodel problem，作者為圖片像素預測一個顏色的機率分布，而不侷限特定顏色中。 ## Model ![](https://i.imgur.com/acIn9g3.png) 將RGB轉為Lab，輸入L，使用CNN預測ab的機率分布，再將此分布轉換後，輸出RGB結果。 ### Loss funcation 給定一個輸入$L$ (lightness)通道$X$ $∈$ $R$ ^H×W×1^，目標是學習到對應a、b通道 $Y$ $∈$ $R$ ^H×W×2^ 的預測結果 $\hat{Y}$ = $F$($X$) 。其中，H, W為照片的維度。 > 所以 $X$ 是input L channel， $Y$ 是a、b channel。$\hat{Y}$ 為a、b channel預測結果。[color=#3b75c6] ![](https://i.imgur.com/5HhxqOw.png) (1)式為傳統MSE loss function，此種損失函數對於 inherent ambiguity and multimodal nature of the colorization problem 並不是很robust。如果一張照片有多種顏色，**L~2~ 損失函數是這些顏色的平均值**，預測結果會造成看起來偏向灰色、不飽和的結果。大自然中如雲、路面、沙漠、牆壁等等常出現的背景，這些值常在不飽和區域，MSE損失函式會導致a、b值偏向這些不飽和的值。因此，此篇論文不用此種loss function。 <div style='text-align:center'> ![](https://i.imgur.com/cvs2ekO.png =40%x) </div> --- ==此篇論文將上色問題視為一種分類問題==。先將a、b通道的輸出每10個grid size作為一個bin，量化成$Q$=313類，如圖(a)。對於輸入$X$，$\hat{Z}$= $G(X)$為圖片顏色機率分布的預測結果。$\hat{Z}$ $∈$ [0, 1]^H×W×Q^。 >所以 Z 是ground truth 圖片顏色機率分布，其維度是HxWxQ [color=#3b75c6] 為了訓練， $\hat{Z}$ 需要對應的ground truth $Z$ = $H$~gt~^-1^($Y$)，其利用soft-encoding scheme，將 $Y$ 轉換為vector $Z$，並使用multinomial cross entropy loss $L$~cl~(·, ·) 定義如下: ![](https://i.imgur.com/3N0pLWA.png) 其中，v(·) 是用來平衡一些較少出現類別的權重，輸入為$Z$。最後，再將 $\hat{Z}$ 經過函式轉換為 $\hat{Y}$，函式為 $\hat{Y}$ = $H$($\hat{Z}$)。 ![](https://i.imgur.com/VrNpyDX.png) 為了獲得平滑的經驗分布 $\hat{p}$ $∈$ $Δ$^Q^ ，論文中統計ImageNet訓練集的a、b分布，並使用Gaussian kernel $G$~σ~進行平滑化。接著mix the distribution with a uniform distribution with weight $λ$ $∈$ [0, 1]。作者發現$λ$=0.5，$σ$=5時效果比較好。 :::info :rocket: 論文中的soft-encoding scheme是指在313類的輸出空間中找到Y~h,w~的5個最近鄰，並按照它們距離Y~h,w~的距離按比例進行高斯加權 ::: 作者定義函式$H$，將$\hat{Z}$ 映射到$\hat{Y}$，對應a、b空間。 ![](https://i.imgur.com/zzlJc6K.png) 其中，$f$~T~(z)為softmax函式引入參數$T$，並使用模擬退火演算法，發現$T$=0.38時結果最佳。當$T$趨近於0，顏色最飽和，但有一些不連續的點，如下圖巴士中的紅點；當$T$=1，顏色變得不飽和。 ![](https://i.imgur.com/qCustpz.jpg) 整個模型包含兩個部分，預測圖片中所有像素分布的CNN model $G$，以及產生最終預測結果的$H$。