# Colorful Image Colorization ###### tags: `paper` `colorization` 論文閱讀 (ECCV 2016),cited:1530 https://github.com/richzhang/colorization ## Contribution - 設計loss function來處理著色問題中的multimodal (單一物體可以有多種上色可能),使上色有多樣性及合理性,而結果是否為ground truth則不是重點。 >For this paper, our goal is not necessarily to recover the actual ground truth color, but rather to produce a plausible colorization that could potentially fool a human observer. - 上色任務轉換為self-supervised feature learning,並在一些benchamrks中達到頂尖水平。 ## Inspiration 作者認為傳統使用歐基里德距離(MSE)來計算Ground truth與predict的結果,會導致顏色飽和度不高、色彩不豐富。 為了multimodel problem,作者為圖片像素預測一個顏色的機率分布,而不侷限特定顏色中。 ## Model ![](https://i.imgur.com/acIn9g3.png) 將RGB轉為Lab,輸入L,使用CNN預測ab的機率分布,再將此分布轉換後,輸出RGB結果。 ### Loss funcation 給定一個輸入$L$ (lightness)通道$X$ $∈$ $R$ ^H×W×1^,目標是學習到對應a、b通道 $Y$ $∈$ $R$ ^H×W×2^ 的預測結果 $\hat{Y}$ = $F$($X$) 。其中,H, W為照片的維度。 > 所以 $X$ 是input L channel, $Y$ 是a、b channel。$\hat{Y}$ 為a、b channel預測結果。[color=#3b75c6] ![](https://i.imgur.com/5HhxqOw.png) (1)式為傳統MSE loss function,此種損失函數對於 inherent ambiguity and multimodal nature of the colorization problem 並不是很robust。如果一張照片有多種顏色,**L~2~ 損失函數是這些顏色的平均值**,預測結果會造成看起來偏向灰色、不飽和的結果。 大自然中如雲、路面、沙漠、牆壁等等常出現的背景,這些值常在不飽和區域,MSE損失函式會導致a、b值偏向這些不飽和的值。因此,此篇論文不用此種loss function。 <div style='text-align:center'> ![](https://i.imgur.com/cvs2ekO.png =40%x) </div> --- ==此篇論文將上色問題視為一種分類問題==。先將a、b通道的輸出每10個grid size作為一個bin,量化成$Q$=313類,如圖(a)。 對於輸入$X$,$\hat{Z}$= $G(X)$為圖片顏色機率分布的預測結果。$\hat{Z}$ $∈$ [0, 1]^H×W×Q^。 >所以 Z 是ground truth 圖片顏色機率分布,其維度是HxWxQ [color=#3b75c6] 為了訓練, $\hat{Z}$ 需要對應的ground truth $Z$ = $H$~gt~^-1^($Y$),其利用soft-encoding scheme,將 $Y$ 轉換為vector $Z$,並使用multinomial cross entropy loss $L$~cl~(·, ·) 定義如下: ![](https://i.imgur.com/3N0pLWA.png) 其中,v(·) 是用來平衡一些較少出現類別的權重,輸入為$Z$。 最後,再將 $\hat{Z}$ 經過函式轉換為 $\hat{Y}$,函式為 $\hat{Y}$ = $H$($\hat{Z}$)。 ![](https://i.imgur.com/VrNpyDX.png) 為了獲得平滑的經驗分布 $\hat{p}$ $∈$ $Δ$^Q^ ,論文中統計ImageNet訓練集的a、b分布,並使用Gaussian kernel $G$~σ~進行平滑化。接著mix the distribution with a uniform distribution with weight $λ$ $∈$ [0, 1]。作者發現$λ$=0.5,$σ$=5時效果比較好。 :::info :rocket: 論文中的soft-encoding scheme是指在313類的輸出空間中找到Y~h,w~的5個最近鄰,並按照它們距離Y~h,w~的距離按比例進行高斯加權 ::: 作者定義函式$H$,將$\hat{Z}$ 映射到$\hat{Y}$,對應a、b空間。 ![](https://i.imgur.com/zzlJc6K.png) 其中,$f$~T~(z)為softmax函式引入參數$T$,並使用模擬退火演算法,發現$T$=0.38時結果最佳。當$T$趨近於0,顏色最飽和,但有一些不連續的點,如下圖巴士中的紅點;當$T$=1,顏色變得不飽和。 ![](https://i.imgur.com/qCustpz.jpg) 整個模型包含兩個部分,預測圖片中所有像素分布的CNN model $G$,以及產生最終預測結果的$H$。