近日,ARC 參加了 CVPR NTIRE 2023 的其中一個挑戰賽 🎉
IEEE Conference on Computer Vision and Pattern Recognition (簡稱CVPR) 是國際上電計算機視覺最有影響力的會議之一,吸引了來自世界各地的研究人員、學者和行業專業人士。
該會議為研究人員提供了一個平台,展示他們的最新研究成果,交換想法,討論計算機視覺和模式識別的最新進展。會議涵蓋了廣泛的主題,包括對象識別、圖像分割、人臉識別、跟踪和運動分析等。
CVPR 由 IEEE 計算機學會模式分析和機器智能技術委員會(PAMI)組織,自1983年以來每年舉辦一次。CVPR 有多熱門呢?我們可以從以下列出贊助商跟參加者窺知一二,都是那些耳熟能詳的單位。
CVPR 2022 的贊助商
會參加 CVPR 的單位
在 CVPR 大會期間會同時舉辦一些小型會議(workshop),專注於特定的研究領域,如計算機視覺、深度學習、影像處理等,提供一個更深入的、專業的學術討論和研究機會。這些 workshop 通常由學術機構、研究實驗室或產業界組織,讓研究人員和專業人士可以分享他們的最新研究成果、討論行業趨勢和技術發展,與會者可以瞭解行業趨勢和最新研究進展的機會,也可以與同行建立聯繫,以促進交流和合作。
而 NTIRE (New Trends in Image Restoration and Enhancement) 是其中一個workshop,特別關注在圖像和影片增強領域的學術和產業交流,涵蓋的主題包括圖像降噪(denoising)、超分辨率(super resolution)、去模糊(deblurring)和去霧(dehazing)等。NTIRE 的主要亮點之一是每年都會針對這些主題舉辦挑戰賽,這些題目將提供基準數據集,並要求參賽者使用先進的計算機視覺技術來實現最佳效果。參賽者將提交他們的算法,並進行性能評估,在公開的排行榜上較勁,看誰是冠軍!
NTIRE 2023 的挑戰賽
Video quality assessment (VQA) 是一個評估影片視覺品質的領域,其主要目標是量化和衡量影片的視覺品質。在 VQA 領域中,研究人員設計和開發各種算法和測量方法,以對影片的不同方面進行評估,例如影像清晰度、色彩飽和度、動態範圍、失真、雜訊等等。VQA 是一個重要的領域,因為在現代媒體的應用中,影片的品質是非常關鍵的。例如,在串流視頻、線上廣告、社交媒體和電影製作等領域中,影片品質是吸引觀眾、提高使用體驗和滿足客戶需求的關鍵因素。因此,開發精確和可靠的 VQA 算法和方法,能夠幫助我們更好地評估和提高影片的品質,並且能夠對媒體產業帶來實質的貢獻。
Video quality assessment (VQA) 和串流 (streaming) 之間有著密切的關係。當我們觀看串流視頻時,影片品質的表現直接影響到觀看體驗的滿意度。如果影片品質低下,觀眾可能會感到不滿意或失去耐心,從而放棄觀看。因此,VQA 技術在串流視頻中扮演了非常重要的角色。在串流平台中,為了提供高質量的視頻內容,我們需要對影片的品質進行監控和評估。VQA 技術可以幫助我們對影片的品質進行定量分析和評估,從而確保影片內容能夠以高品質呈現在觀眾面前。此外,在影片品質發生問題時,VQA 技術也能夠幫助我們快速地進行問題定位和排查,從而提高故障處理的效率。因此,VQA 技術在串流視頻中發揮著關鍵的作用。
近期在研究舊片修復時,像是將類似悲情城市年代的影片做數位修復,因為沒有修復後的真相 (ground truth),所以只能仰賴肉眼、主觀地去判斷哪種修復的效果比較宜人。因此開始對於能夠量化影片品質的 VQA 方法進行了初步的研究,也因如此,成了 ARC 選擇影像增強 VQA 挑戰賽 (NTIRE 2023 challenge of quality assessment for video enhancement) 參加的原因。
為了可以更接近真實世界的情境,比賽採用了包含人物、城市、室內、公園等多種場景的短影片,總共有 1211 個影片,每個影片大約8到10秒,皆後製過一些影像處理,像是加強亮度、加強對比、銳化(去模糊)、去除手震等,每個影片皆配有一個由主辦方設計過、由多人判斷後的平均意見分數 (MOS, Mean Opinion Score)。下圖可以看到一些範例。
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
score: 66.53965935Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
score: 31.15083965
主辦方會提供一些沒有公布 MOS 的影片(但事實上主辦方知道標準答案),而這個挑戰賽,就是看誰提出的 VQA 模型,預測出來的 MOS 分數跟標準答案越接近!
分析競賽影片資料時,發現由於影像處理的種類很多,包括色彩、亮度和對比度增強,還有去模糊、去抖動等,導致影片間存在很顯著的差異性。因此,即使是相同的 VQA 模型,使用不同的子數據集 (subset)的作為訓練集的差異很大。為了減輕由不同影像處理方式造成的訓練偏差 (bias),我們使用的主要概念是集成式學習 (ensemble learning) 中的堆疊法 (stacking)。
白話一點來比喻,就是 A 評審可能因為每天都在吃牛肉,對於牛肉品質的判斷很精準,但他因為很少吃豬肉跟雞肉,所以對於豬肉的腥羶味分辨不太出來,而 B 與 C 評審則分別只擅長判斷豬肉與雞肉的品質,對於其他種類相較之下不太擅長。那就將三位評審都集合起來,遇到牛肉時,多參考 A 評審一點,而審到豬肉與雞肉時,則是多參考 B 或 C 一些,這樣集合大家的意見,就可以對所有的肉種都有較準確的判斷,像下圖
我們的方法命名為 SB-VQA (stack-based video quality assessment),如下圖,由三個不同的 VQA 模型再加一個學習每個 VQA 模型對於預測結果的回歸模型。
SB-VQA 的架構
而三個 VQA 模型選用 ECCV 2022 發表的 FastVQA 家族,預測效果會比單一個 VQA來的更加準確。
FastVQA簡單的來説,就是將影片中的畫面做間隔式的取樣 (fragments),再拼成一張保有原始畫面細節但同時尺寸又足夠小可以快速做計算的畫面,在設計一個適合 fragment 輸入的網路架構 (FANet, Fragment Attention Network)
你說人根本看不懂這張畫面在幹嘛?沒關係電腦看得懂 🤣
FANet 的網路結構
另外,CVPR 2022 發表的 MANIQA 提到,在評估影片或畫面的 MOS 品質分數時,人們往往會特別關注某些區域,例如畫面的中心或移動物體,代表著畫面的不同區域對於品質的感受是不同的。因此,額外採取了雙分支結構,除了預測每個區域的 MOS 品質分數外,也預測來自不同區域視覺感受的權重,最後再加權成為整支影片的得分,我們認為加權的結構更接近人類對影片的感知。
雙分支權重計算
將 SB-VQA 使用在主辦方的測試集,在最後有參賽到最後的隊伍中,表現的排名為 #9 。
Testing ranking
比賽的期程很短,從決定要參加到官方公佈最後的測試集時間不到一個月。構建了一個平行執行實驗任務的系統平台,讓團隊成員能夠集中精力於特徵提取和模型優化,減少在重複測試和驗證上的時間。此系統平台利用其自動平行擴展 GPU 計算資源的功能,使得多人可以同時進行多個實驗。此外,我們採用 MLflow 進行管理和記錄實驗過程,可以快速瀏覽整體結果,分析各方法的表現原因,並且調整實驗方向。最終,我們能夠更有效地進行比賽,並取得更好的成績。
加速平行實驗的系統設計
除了用在競賽的影片來比較預測影片 MOS 分數的準確程度外,動心起念,回歸到一開始的動機,我們也想知道,把這個模型應用在 premium content 的影片上,是否能得到一些洞見? 像是古早電影的修復和超分辨 (VSR),若可以有一個可以準確反饋主觀影片品質分數的指標,就很有機會產出視覺上更滿意的結果。想回答下列兩個問題:
1. 影片的品質分數是否跟編碼比特率 (bitrate) 有關?
眾所周知,在給定編碼器類型、視頻內容、幀大小和幀速率下,更高的編碼比特率在能夠保留更多細節,從而提高影片的感知品質。在串流產業中,針對影片內容的特性使用不同編碼比特率的壓縮是很常見的。因此經驗上來說,同一隻影片,若編碼比特率越高,VQA 模型預測出來的 MOS 分數應越高,反之亦然。
2. 影片的品質分數是否會跟人們在觀看的影片喜好 (human interests) 有關?
部分 Youtube 影片會以一個波形圖凸顯影片中受觀眾關注、一直被重播的地方 (下圖 Most Replayed),代表人們的觀影喜好,而人們的觀影喜好應該會包括但又不全然是影片品質 (你應該不會重複看一段品質很差的影片)。因此我們將 Youtube 波形圖的最小值與最大值分別代表此 YouTuve 影片區段的吸引力分數 (appealing score),並與 VQA 預測出來的 MOS 做比較,看是否有些關聯。
我們首先在 YouTube 上挑了數個具有 Creative Commons license 的電影工作室官方發布的電影預告片。對於每支預告片,直接從 YouTube 上取得 1080p, 720p, 480p, 360p 四個分辨率的版本,而每個分辨率版本的影片,分別使用 6 個不同的編碼比特率轉碼,處理流程如下圖。
Youtube 電影預告片的處理流程
下圖可以看出,不論在哪一個分辨率,MOS 和編碼比特率皆是正相關,編碼比特率越高則 MOS 越高。
MOS 和 bitrate 是正相關,與經驗值相符
結果 YouTube 吸引力分數和預測出來的 MOS 並沒有很直接的關聯 (下圖)。對於某些預告片,像是#3, #4, #7, #8,可以觀察到在某些片段,當畫面品質越來越好,也就是虛紅線方向往上時,黑線也同時提高,代表觀眾的關注度也同時提高,這個現象發生在動畫場面和壯觀的特效畫面。但在某些片段也觀察到相反的趨勢,表示一些受觀眾矚目的片段可能歸因於視覺品質以外的因素。
近一步思考,是不是可以從受觀眾注目的地方搭配適當的視覺品質即可?像 #10 的後面,這邊可能畫面很好但觀眾並不感興趣,所以在有限的頻寬資源時其實這邊的畫質是可以被犧牲的。又像 #1 中間的黑色高峰,這邊可能內容很精彩,讓觀眾願意重複去播放,那若把搭配將畫質調整得更加精美,可能會讓此預告片有更高的吸引力。
當然,將 VQA 與內容做全盤性的考量,就是後續需再延伸的研究了。
吸引力分數 (黑線) and MOS (虛紅線) 的關聯不是那麼直觀