# Deep Learning Score Comparision [TOC] ## 0. Distortion vs Perceptual - Distortion - 失真是指圖像在經過處理(如壓縮、傳輸、重建等)後,與原始圖像之間產生的差異或誤差,可以通過客觀指標來量化 - 包含 PSNR、SSIM,兩者都是傳統的圖像質量評價指標,前者簡單直觀,後者更符合人類視覺感知。 - Perceptual - 感知涉及人類視覺系統(HVS)對圖像質量的主觀評估。評估考慮了人類對圖像的主觀感受和認知特性 - 包含 LPIPS、FID ## 1. PSNR - PSNR(Peak Signal-to-Noise Ratio)概念上是做 pixel-wise 的比較 \begin{equation} \text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}^2}{\text{MSE}} \right) \end{equation} - $MAX$ 是圖像數據的最大可能值(例如,對於8位圖像,$MAX=255$),就是指 Peak Signal ,$MSE$ 是均方誤差,也就是表示 Noise,見下 \begin{equation} \text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i, j) - K(i, j)]^2 \end{equation} - 優點: - 計算簡單,直觀易懂。 - 在圖像壓縮和去噪任務中廣泛使用。 - 缺點: - 不能很好地反映人類視覺感知的圖像質量。 - 對圖像的細微感知差異不敏感。 ## 2. SSIM - SSIM(Structural Similarity Index)多考慮了一些 pixel 上的平均值、標準差、共變異數等等資訊,較具有 structure 上的比較 \begin{equation} \text{SSIM}(x, y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} \end{equation} - $μ_x$和 $μ_y$分別是圖像 $x$ 和 $y$ 的平均值 - $σ_{x}^2$ 和 $σ_{y}^2$分別是圖像 x 和 y 的變異數 - $σ_{xy}$是圖像 $x$ 和 $y$ 的 共變異數 Covariance - $C_1$ 和 $C_2$ 是用於穩定性的常數 - 優點: - 更符合人類視覺系統的感知 - 考慮了圖像的結構信息,對比度和亮度 - 缺點: - 計算覆雜度高於PSNR - 對不同類型的失真可能不夠敏感 ## 3. LPIPS - LPIPS(Learned Perceptual Image Patch Similarity)是一種基於深度學習的指標,經過深度學習網路如 VGG,轉成 feature space 後,再比較差異。 \begin{equation} \text{LPIPS}(x, y) = \sum_{l} \frac{1}{H_l W_l} \sum_{h,w} || \phi_l(x)_{hw} - \phi_l(y)_{hw} ||_2 \end{equation} - $x$ 和 $y$ 是兩幅待比較的圖像 - $ϕ_l$ 表示在第 $l$ 層提取的 feature - $H_l$和 $W_l$ 是第 $l$ 層 feature 的高度和寬度 - $ϕ_l(x)_{hw}$ 和 $ϕ_l(y)_{hw}$ 分別表示在第 $l$ 層feauture 中位置 $(h,w)$ 的內容 - $∣∣⋅∣∣_2$ 表示 $L2$ 歐幾里得距離 - 優點: - 更加貼近人類感知,能捕捉更細微的感知差異 - 對圖像的高層語義信息更敏感 - 缺點: - 依賴於預訓練的深度模型,計算覆雜度較高 - 需要大量計算資源 ## 4. FID - FID(Frechet Inception Distance)主要用於生成模型的質量評估,考慮了兩群資料(生成圖像與真實圖像)在分布的差異。 - Inception 網絡是一種深度卷積神經網絡架構 - 主要特點是其 Inception module,通過在同一層中並行應用多種不同大小的卷積核來捕捉不同尺度的 feature。 \begin{equation} \text{FID}(x, g) = ||\mu_x - \mu_g||^2 + \text{Tr}(\Sigma_x + \Sigma_g - 2(\Sigma_x \Sigma_g)^{\frac{1}{2}}) \end{equation} - $μ_x$ 和 $μ g$ 分別是真實圖像和生成圖像在 Inception network 中的 feature mean值。 - $Σ x$ 和 $Σ g$ 分別是真實圖像和生成圖像在 Inception network 中的 feature 共變異數ㄓ Covariance 矩陣。 - $Tr$ 表矩陣的 trace,即對角元素之和 - 優點: - 考慮了圖像的分布差異,更適合評估生成模型的性能 - 能反映生成圖像的質量和多樣性 - 缺點: - 計算覆雜度較高,需要用到Inception網絡進行特征提取 - 對模型訓練和計算資源要求較高