有損壓缩算法通常是通過**香農的速率**-失真理論來設計和分析的,其目的是為了目標是在任何给定的比特率下實現盡可能低的失真(例如,低MSE或高SSIM)在任何给定的**比特率**下。然而,近年来,人們越来越多地接受 "低失真 "是指在任何给定的比特率下實現最低的失真(如低MSE或高SSIM)。越来越多的人認為,"低失真 "不是 "高感知質量 "的同義詞,事實上,對其中一個的最佳化往往是以犧牲另一個為代價的。 犧牲另一個。鑒於這種認識,自然而然地要 尋求速率-失真理論的一般化 的概括,其中考虑到了感知質量。在本文中,我們採用了最近由Blau & Co.提出的數學定義。最近由Blau & Michaeli(2018)提出的感知質量的數學定義,並使用它來研究速率、失真和質量之間的三方面 速率、失真和知覺之間的權衡。我們表明,將知覺質量限制在 是高的,通常會導致速率-失真曲線的升高。速率-失真曲線升高,因此必須犧牲速率或失真。我們證明了 這一三要素的基本屬性,以閉合形式計算了伯努利音源的三要素,並在一個玩具上直觀地說明了它。在一個玩具MNIST的例子上直觀地說明了它。 當感知質量不受限制時,權衡的特點是香農的經典速率-失真函數(黑線)。然而,當對感知質量的约束被收緊以確保感知上令人愉悦的重建时,該函數就會升高(彩色線)。因此,知覺質量的改善是以更高的速率和/或失真為代價的。 對於任何全参考失真度量來說,它都是凸的(在小的假設下),而且有一個P值的范圍,它必然不與傳統的速率-失真函數相吻合。對於平方誤差失真這一特定情况,我們還提供了一個在任何给定速率下為實現完美的感知質量而必須發生的失真增加的上限。我們的觀察對實際壓缩方法的設計和評估有重要意義。特别是,它們表明,僅從速率-失真曲線的角度來比較不同的算法會產生誤導。我們在圖像壓缩的背景下證明了這一點使用一個玩具MNIST例子,通過系统地探索這三種屬性(速率、失真、感知)中的每一種的改善對其他屬性的視覺效果。我們通過訓練一個利用生成模型的编碼器-解碼器网來做到這一點,與(Tschannen等人,2018;Agustsson等人,2018)類似。正如我們所展示的,我們討論的現象在低比特率下占主導地位,在那里,單纯最佳化失真度的經典方法會導致不可接受的感知質量。當使用MSE失真時,這也許並不令人驚訝,眾所周知,MSE失真與人類的感知不一致。但我們的理論表明,每一個失真度量(不包括病理情况)都必須與知覺質量進行權衡。這包括例如流行的SSIM/MS-SSIM(Wang等人,2003;2004),深曾特徵之間的L2距離(Johnson等人,2016),以及任何其他完整的参考標准。為了說明這一点,我們用(Johnson等人,2016)的失真度量重覆了我們的玩具實驗,該度量被用作提高低水平視覺任務的感知質量的手段(Ledig等人,2017)。正如我們所顯示的,在低比特率下,最小化這種失真並不能帶來良好的知覺質量,就像我們的理論所预测的那樣 正如我們的理論所预测的那樣。此外,當强制執行高 感知質量時,這種失真反而會增加。 2.背景 2-1. 速率失真理論 速率失真理論分析了用於表示數据的速率(每個樣本的bit)與數據之間的基本權衡。 速率失真理論分析了用於表示數據源X∼pX的樣本的速率(每個樣本的比特數)與预期的速率失真之間的基本權衡。用來表示數據源X∼pX的樣本,與预期的在對這些樣本進行解碼時產生的失真。壓缩表示的预期失真。從形式上看,以下兩者之間的關係編碼器-解碼器對的輸入X和輸出Xˆ,是一個(可能是随機的)映射,由一些條件性的分布pXˆ|X,如圖2所示。预期的因此,解碼信號的预期失真被定義為 E[∆(X, Xˆ)] 其中,期望是相對於聯合分布而言的pX,Xˆ = pXˆ|XpX,並且 ∆ : X × X →ˆ R+是任何全参考失真向量,使得∆(x, xˆ) = 0,而且僅當x = ˆx时(例如,平方的x)。∆(x, xˆ) = 0,只有當x = ˆx時(例如,誤差平方,深度特徵之間的L2距離特徵(Johnson等人,2016;Zhang等人,2018),SSIM/ MS-SSIM1(Wang等人,2003;2004),PESQ(Rix等人。 2001)等)。速率失真理論中的一個關鍵結果是,對於一個iid 源X,如果预期失真以D為界,那麼最低可實現速率R的特徵是(訊息)速率-失真函数 R(D) = minI(X, Xˆ) s.t. E[∆(X, Xˆ)] ≤ D pXˆ|X 其中I表示相互訊息(Cover & Thomas,2012). 速率-失真函数R(D)的閉合形式表達式僅適用於少數源分布情况並且在相當簡單的失真度量下(例如平方誤差或漢明距離)。然而,這個函數的幾個一般屬性是已知的,包括它總是單調的非遞增的和凸的。 2.2. 感知質量 一個輸出樣本xˆ的感知質量是指人類將其視為有效(自然)樣本的程度。無論其與輸入x的相似度如何。领域中,感知質量與下列因素有關輸出訊號的分布pXˆ與自然訊號的分布pX的偏差。自然訊號的分布pX,這一點,正如在以下文章中討論的那樣(Blau & Michaeli, 2018)中討論的,這與量化感知質量的常見做法有關。通過真實與虚假的用戶研究来量化感知質量(Isola等人,2017;Salimans等人,2016;Zhang等人。2016;Denton等人,2015)。特别是,偏離自然場景统計是許多無参考價值的 圖像質量测量的基礎(Mittal等人,2013;2012;Wang 1 像SSIM這樣的衡量標準,是對相似性而非差異性的量化,不一定是正數。1像SSIM這樣的量化相似性而非差異性的指標,需要被否定和移位才能成為有效的失真測量。和移位来作為有效的失真向量。一個源訊號X∼pX通過編碼器被映射成一個編碼序列,然後再返回到一個估计值。三个期望的特性是。(i) 编碼序列是緊湊的(低比特率);(ii) 重建的Xˆ是(iii) 分布pXˆ與pX相似,以便解碼後的訊號被認為是真正的源訊號。視為真正的源訊號(良好的知覺質量)。這與人類的意見評分有很好的相關性。與人類的意見分數有很好的相關性。這也是它也是基於GAN的圖像修復方案的原理,該方案它通過直接最小化一些發散d(pX, pXˆ)來實現增强的知覺質量(Ledig等人,2017;Pathak等人,2016;Isola等人,2017;Wang等人,2018)。基於這些工作,並遵循(Blau & Michaeli, 2018),我們將一個算法的感知質量指數(越低越好)定義為算法的感知质量指数(越低越好)为 其中d ( ⋅ , ⋅ )是分佈之間的一些散度(例如,Kulback-Leibler、Wasserstein 等),而p X和p ^ X分別是源樣本和輸出樣本的分佈。該定義背後的直覺與通過真實與虛假用戶研究量化感知質量的常見做法有關,該研究測試檢測信號是真實(來源)還是虛假(解碼)的能力(Isola 等人,2017 年; Salimans 等人,2016 年;Zhang 等人,2016 年;Denton 等人,2015 年). 更具體地說,假設詢問觀察者是否有信號z 是源信號或解碼信號,其中每個選項的先驗概率是 1 2. 當感知指數等於0(完美質量)時,p ^ X = p X , 以至於超過概率無法正確 分類 1 2. 隨著感知指數變大,p ^ X偏離p X,因此解碼信號變得更容易與源信號區分開來,表明質量更差。實際上,在d ( ⋅ , ⋅ )是總變異 (TV) 距離的特定情況下,感知指數 ( 3 ) 恰好變為2 p success + 1,其中p success是可能的最佳分類器的成功概率(Blau 和 Michaeli,2018 年)。 顯然,如上所定義的感知質量與失真非常不同。特別是,最小化感知質量指數並不一定會導致低失真。例如,如果解碼器不考慮編碼表示,並從源分佈p X 中輸出隨機樣本,那麼它將實現完美的感知質量但失真很差。事實證明,在另一個方向上也是如此。也就是說,最小化失真並不一定會導致良好的感知質量。已在(Blau & Michaeli, 2018 ) 中研究了這一觀察結果 在信號恢復的特定環境中(例如,去噪、超分辨率)。結果表明,只要退化不可逆,感知和失真就從根本上相互矛盾,從某種意義上說,優化一個總是以犧牲另一個為代價。他們創造的這種行為 感知-失真權衡,被證明適用於任何失真測量。 在信号修复(如去噪、超分辨率)的特定背景下,对这一观察进行了研究。具体而言 特别是,感知和失真从根本上说是相互矛盾的。 互相抵触(对于不可逆转的退化),因为 在这个意义上,优化一个总是以牺牲另一个为代价的 牺牲另一个。这种行为被称为 "感知-失真"。 这种行为被称为感知-失真权衡,被证明对任何失真度量都是如此。 We assume that d(p, q) ≥ 0, d(p, q) = 0 ⇔ p = q. 3. 速率-失真-感知權衡 由於感知質量和失真通常都很重要,因此我們擴展率失真函數 (2) 以考慮感知指數 3 (3)。 定義 1 (信息)率失真感知函數定義為 ![](https://i.imgur.com/VruXAt2.png) 3.1. 伯努利源 考慮編碼二進制源 X 的問題~ Bern(p),其中解碼器的輸出 Xˆ 也受到約束 是二進制的。 讓我們採用失真向量 ∆(·, ·) 是漢明距離,和感知指數4 為總變異 (TV) 距離 dTV(·,·)。 不失 一般性,我們假設 p ≤ 1/2。 當感知不受約束時(即 P = ∞),(4)的解簡化為二元源的率失真函數(2),已知由下式給出 ![](https://i.imgur.com/FgRQ9Ya.png) 其中 Hb(α) 是伯努利隨機變量的熵概率為 α (Cover & Thomas, 2012)。 在補充材料中,我們推導出任意 P 的解。結果證明,只要感知質量約束足夠鬆散,解就保持不變。 然而,當 P ≤ p 時,只要失真約束足夠松,(4)中的感知約束就會變得活躍,從這一點函數 R(·, P) 偏離 R(·, ∞)。 具體來說,對於 P ≤ p,我們有 ![](https://i.imgur.com/nwENDXk.png) 與 (2) 類似,(4) 中的 R(D, P) 下限是 iid 源的最佳可實現速率(參見補充材料)。我們一般不證明 R(D, P) 的可實現性。然而,對於 MSE 失真,我們展示了一個可實現的上限(見定理 2)。4術語“感知”對於伯努利源有些不合適,因為它不會被人類感知(與圖像、音頻相反)。 然而,為了保持一致性,我們將這個術語保留在這裡。 ![](https://i.imgur.com/04hFXt5.png) 圖 3. 感知約束率失真曲線伯努利源。 香農率的失真函數(虛線)表示了在任何規定的失真水平下可達到的最佳率,但並不能確保良好的感知質量。 當將感知質量指標 dTV(pX, pXˆ ) 限制為低(質量好)時,率失真函數升高(實線)。 這表明良好的感知質量必須以更高的速率和/或更高的失真為代價。 這裡 X∼Bern(1/10)。 q = 1 − p and Ht(α, β)表示具有概率的三元隨機變量的熵α, β, 1 − α − β.這裡S1 = [0, D1], S2 = [D1, D2], and S3 = [D2, ∞],其中D1 =P/1−2(p−P )and D2 = 2pq − (q − p)P。 圖 3 繪製了 R(D, P) 作為 D 的幾個 P 值的函數。可以看出,在 D = 0 時,所有曲線合併。這是因為此時Xˆ = X(無損壓縮),因此pXˆ = pX,因此感知質量是完美的。然而,隨著允許的失真 D 變大,曲線離開。這說明實現經典率失真曲線(黑色虛線)通常不會導致良好的感知質量。我們規定的感知質量約束越嚴格(P 越低),率失真曲線越高(彩色曲線)。特別是,在低比特率制度下,這種權衡變得嚴重,在這種情況下,良好的感知質量是以顯著更高的失真和/或比特率為代價的。請注意,通過在某種程度上妥協失真,可以在每個速率(藍色曲線)下獲得完美的感知質量。在秒。 3.2 我們提供了獲得完美感知質量所需的失真增加的上限。雖然圖 3 顯示了 R(D, P) 沿率失真平面的橫截面,但在圖 4 中,我們將 R(D, P) 繪製為 3 維曲面,以及沿其他平面的橫截面。圖 4(a) 中顯示的等速率水平集為上述現象提供了另一種可視化。也就是說,在高比特率下,可以在不顯著犧牲失真 D 的情況下實現良好的感知質量(低 P)。然而,隨著比特率變低,等速率水平基本上設置為朝向低 P 值,說明在這種情況下失真和感知之間的權衡加劇。圖 4(b) 通過顯示不同比特率的感知失真曲線提供了一個額外的觀點。再次注意,失真和感知質量之間的權衡在低比特率下變得更強。最後,圖 4(c) 顯示了作為失真函數的速率和感知質量之間有些違反直覺的權衡。具體來說,我們看到在每一個恆定的失真水平上,感知質量都可以通過增加速率來提高。 3-2 對於一般的源分佈,通常無法解析求解(4)。 然而,事實證明,我們看到的伯努利源的行為是非常典型的。 我們接下來證明函數 (4) 的幾個一般性質,它們在相當溫和的假設下成立。 具體而言,我們假設: A1 (4) 中的散度 d(·, ·) 在其第二個參數中是凸的。 也就是說,對於任意 λ ∈ [0, 1]並且對於任何三個分佈p0, q1, q2, ![](https://i.imgur.com/bv9H5ke.png) ![](https://i.imgur.com/TAvVOmP.png) 假設 A1 的限制並不大。 例如,任何 f-divergence (e.g. KL, TV, Hellinger, X^2)以及 Renyi 發散,滿足這個假設 (Csiszar et al. ´ ,2004; Van Erven & Harremos, 2014)假設 A2 在“有效”信號 z 和所有其他“有效”信號之間的平均距離不是常數的任何設置中都成立。 特別是,它適用於任何具有唯一最小值的失真函數 ∆(·, ·),例如平方誤差失真和 SSIM 指數(在某些假設下)(Brunet,2012)。 使用這些假設,我們能夠定性地表徵函數 R(D, P) 的一般形狀。 ![](https://i.imgur.com/yLQPH4S.png) 定理 1 的證明可以在補充材料中找到。 請注意,當假設 A2 成立時,屬性 1 和 3 表明存在一些 D0,其中 R(D0, 0) > R(D0, ∞),表明在製作完美感知質量時,率失真曲線必然會升高。 在任何情況下,假設 A2 都是性質 3 的充分條件,因此即使它不成立,也不一定意味著 R(·, 0) = R(·, ∞)。事實上,我們只需要較弱的條件,即 k(z) 在 pX 的整個支持範圍內沒有達到其最小值。 6有效訊號是任何 x : pX(x) > 0。此外,為了清楚起見,我們在這裡使用“距離”,儘管 ∆(·, ·) 不一定是向量。 ![](https://i.imgur.com/cLofEbo.png) 圖 4. 伯努利源的速率-失真-感知函數。 (a) 在率失真感知函數 R(D, P) 上描述的等率水平集。 在低比特率下,當接近 P = 0 時,等速率線大幅彎曲,顯示失真和感知質量之間的權衡越來越大。 (b) R(D, P) 沿感知失真平面的橫截面。 請注意感知質量和失真之間的權衡,這在低比特率下變得更強。 (c) R(D, P) 沿速率感知平面的橫截面。 請注意,在恆定失真情況下,可以通過增加速率來改善感知質量。 ![](https://i.imgur.com/fhIunVu.png) 圖 5. 定理 2 的說明 當使用 MSE 失真時,具有完美感知質量(藍色)的壓縮率-失真曲線高於香農的率失真函數(黑色虛線),但必然低於 2 倍縮放版本 香農的函數(虛線)。 在製作完美感知質量時,率失真曲線會升高多少? 下一個定理設定了 MSE 失真的這個高度的上限(見補充材料中的證明)。 定理 2 當使用平方誤差失真時,函數 R(·, 0)(完美感知質量下的率失真)有界於 ![](https://i.imgur.com/JdX5YPJ.png) 定理 2 表明,通過犧牲不超過 2 倍的均方誤差 (MSE) 增加,可以在不增加速率的情況下獲得完美的感知質量。 更具體地說,在失真 D 處獲得完美的感知質量不需要比在沒有感知質量約束的情況下以失真 1/2D 壓縮所需的比特率更高的比特率。 這在圖 5 中進行了說明,其中以藍色顯示的完美質量曲線 R(·, 0) 受香農無約束質量曲線 R(·, ∞) 的縮放版本的限制,顯示為黑色虛線。 在圖像恢復場景中,MSE 增加 2 倍(PSNR 降低 3dB)已被證明可以通過實用算法顯著提高感知質量(Blau 等人,2018 年;Ledig 等人,2017 年)。 請注意,此界限通常不嚴格。 因此,在某些設置中,即使失真增加更小,也可以獲得完美的感知質量。 --- ### Introduction ![](https://i.imgur.com/BShTEGs.png) * 有損壓縮法通過R-D模型理論來進行設計與分析,為了在給定的位元率底下盡可能減少失真 * 近年來,人們察覺到低失真的圖片不一定代表視覺品質良好。事實上,對其中一項的優話往往是犧牲另一個做為代價 * 本文由前人所提出的感知品質指標的數學定義,探討位元率、失真與感知品質的取捨 * 我們認為,當將感知品質固定在高點時,通常會導致 R-D curve 的升高 * 上圖中虛線表示不做限制,而實線表示閱高的感知品質意味著更高的位元率或者更高的失真 ### Rate-Distortion Theory s.t. = subject to = 受限於 ![](https://i.imgur.com/eu1HCpz.png) ### The Rate-Distorion-Perception Tradeoff ![](https://i.imgur.com/jx51QuT.png) ![](https://i.imgur.com/xS1Xcy3.png) ### ![](https://i.imgur.com/n0Twha0.png)