Video Compression
-
Homework #1 2022/03/22
-
- (45%)Suppose that we have a discrete memoryless source with first six samples
a2 a0 a0 a3 a5 a2.
Symbol |
a0 |
a1 |
a2 |
a3 |
a4 |
a5 |
Probability |
0.5 |
0.1 |
0.3 |
0.02 |
0.03 |
0.05 |
The symbol probabilities p(ai) for ai A are specified below:
a) (5%) Find the entropy of the source.
b) (10%) Design a Huffman codebook for this source.
Symbol |
probability |
Codeword |
a0 |
0.5 |
0 |
a1 |
0.1 |
100 |
a2 |
0.3 |
11 |
a3 |
0.02 |
10110 |
a4 |
0.03 |
10111 |
a5 |
0.05 |
1010 |
c) (5%) Find the average length of codewords.
d) (5%) How good is this Huffman code?
- huffman tree 可以減少 bit 的表示方式, 在 stream 傳輸可以減少 throughput.
e) (20%) Perform arithmetic coding algorithm to encode the first 6 samples. For
this case, you shall ignore the termination issue, and output the shortest bit
string, while the probability distribution is based on the table above.

f1 -> 最右邊
f2 -> 中間
明顯f2 比 f1 好 但是 f1 的 PSNR 因為mse 比較小所以會大於 f2的PSNR.

- Paper reading.
- Paper 主要是描述圖像質量的判斷方式, 作者在一開始說明了 MSE 跟PSNR 在某些狀況下判斷圖片質感會有某些失真的情況, 像是如果是基於傳統MSE 的損失不足以表達人的視覺系統對圖片的直觀感受, 有時候只是兩張圖片的亮度不一樣, 但是之間的 MSE loss 卻相差很大, 而一幅很模糊與很清晰的圖, 他們的 mse loss 卻相差很小.
作者結合神經科學的研究, 認為我們人類衡量兩幅圖片的距離, 更偏重於兩圖的結構相似性, 而不是依據像素計算兩圖的差異, 作者透過兩張圖片的亮度,對比度, 結構 依照三個維度進行比較,得到的結果就是結構相似性.
最後作者還有提供一個判斷的方式叫做 Mean structural similarity, 因為上方的 ssim 不能用於一整張圖, 因為整張圖片的跨度上, 均值跟方差往往變化劇烈, 同時圖像上不同區塊的失真程度也有可能不同
- Paper reading:
- 主要是在講說關於人類觀賞影片的最佳環境, 像是角度跟高度還有影像的距離影響, 文中有列出 每個品牌的電視 螢幕大小跟 最佳距離的 table, 當人觀看影像如果有照文中提供的 距離去觀賞, 有些畫質的失真會因為 距離而會忽略. 除了第四題的 paper, 觀賞影像的環境也是很重要的一個環節, 如果說環境有調整好或是相機的焦距有調整好, 一般情況下可以在優化使用者的體驗, 在最佳化影像這一環, 可以再做到更好. 文中還有提到關於高度角度的公式, 可以透過量化過的數據去計算出最佳觀賞的環境, 在業界花很多時間在 影像3A的處理, 透過上方的公式可以在最佳化這一步再多一個好方式.