Object Processing Papers

# Object Processing Papers ## Detecting and Recognizing Human-Object Interactions ### 邵禹翔 ### Paper :arrow_right: https://paperswithcode.com/paper/detecting-and-recognizing-human-object?fbclid=IwAR3_HixrerdKiPhGrPBTOWmrL-wDD-gsnPWqaqIWEt9w87PujfnOr6SLujE ### Source Code https://github.com/facebookresearch/detectron ### 介紹如果想要了解這個世界，機器不但需要去辨識不同的物體，還需要去辨認他們的互動。在這篇paper中，闡述了在照片中偵測<human, verb, object>三個物件的做法。這是一個以人為主的新穎model。這篇paper的假設是，人的外觀(pose, clothing, action)，是一個很好去局部化他們動作的線索。為了要利用這個線索，這個模型學習根據檢測到的人的外觀預測目標對象位置上的特定動作密度。下圖是範例 ![](https://i.imgur.com/6EhknpH.jpg) ## Zero-Shot Text-to-Image Generation ### 龍帆軒 ### paper：https://paperswithcode.com/paper/zero-shot-text-to-image-generation ### 稍微介紹 Text-to-image generation model 傳統來說都是注重在找到一個更好的 model assumption來訓練一個固定的dataset。但是這些assumption 像是通常都有著複雜的架構、auxiliarily losses、或是在training的時候要提供一些額外的imformation像是object part labels或segmentation mask。這篇paper提供了一個在zero shot領域有著不錯的表現的transformer model。因為我們的dataset 不可能涵蓋所有類型的資料，所以出現了 zero shot learning，讓model可以模仿我們的學習方式，像是如果我們model可以判別出「馬」，雖然牠沒見過「斑馬」但還是可以判來是一隻有條文的馬，不是貓或狗。 ## DeepFake Detection ### 張祝維 ### paper：https://paperswithcode.com/task/deepfake-detection?fbclid=IwAR3MQ6_L_hH9TQwfVzpSQy-XFLkUHKBgzUnefyUv8Y2UKO8UweNp4lwAeTI ### 稍微介紹偵測一個影片是不是有經過deep fake 處理在高品質的deep fake下很多模型都不能有效偵測，不過如果利用IQM+SVM錯誤率大約只有8.97% (剛看到每日頭條介紹：https://kknews.cc/zh-tw/tech/ky2ozxr.html) > 哀額成大小玉 [name=沈子揚] ## Anchor-Free Person Search ### 劉宗翰 ### paper :arrow_right: https://arxiv.org/abs/2103.11617 ### 介紹 :arrow_right: https://mp.weixin.qq.com/s/iqJkgp0JBanmeBPyHUkb-A 近年来，行人重識別（Person Re-Identification，簡稱person ReID）在電腦視覺領域非常火紅。脫胎於person ReID，行人搜索（Person Search）與ReID的單一識別任务不同，**Person search**任務的目的是：**定位**並**識別目標行人**，其结合了行人檢測和ReID兩個任務，因此也更貼近實際應用場景。這邊論文開創性地提出了一個簡潔有效的無需描框（Anchor-Free）的行人搜索框架，其搜索精度全面超越以往基於二階段檢測器的框架，並且在保證性能的前提下達到了更快的運行速度。 --- ## YOLOv4 ### 沈子揚 ### paper :arrow_right: [YOLOv4 optimal-speed-and-accuracy-of-object](https://paperswithcode.com/paper/yolov4-optimal-speed-and-accuracy-of-object) ### source code :arrow_right: [darknet](https://github.com/AlexeyAB/darknet) ### 介紹 YOLOv4是去年(2020)4月時推出(台灣研究員)，YOLO系列主要是應用於**即時物件偵測**，例如偵測行人、交通路況等等，目前中研院已經用於監視即時路況和社交距離偵測與警示。這邊看影片比較快 :arrow_right: https://www.youtube.com/watch?v=1_SiUOYUoOI >其實原本是要[(Who let the dog out)這篇](https://paperswithcode.com/paper/who-let-the-dogs-out-modeling-dog-behavior)，預測狗可以行走的地面之類的，沒啥用的感覺 --- ## Towards Real-World Blind Face Restoration with Generative Facial Prior ### 莊上緣 ### paper：https://paperswithcode.com/paper/towards-real-world-blind-face-restoration ### 稍微介紹 Blind Face Resotration是一種把低解析度或是圖片品質不佳的人臉照片復原成高清等級的肖像照片的技術，研究核心利用了包含在訓練好的人臉生成模型裡的「知識」, 被稱之為生成人臉先驗 (Generative Facial Prior, GFP)。它不僅包含了豐富的五官細節, 還有人臉顏色(也就是該訓練模型中會有大量的資料，一張低清人臉照片所僅有的面部特徵可以被這種技術從資料庫裡大量查找相關人臉資訊並推論該人原本可能是長怎樣，將該照片"腦補"回完整高清的人臉照，而且訴求是盡量越像那個人越好), 此外它能夠把人臉當作一個整體來對待, 能夠處理頭髮、耳朵、面部輪廓。 --- ## ArtEmis: Affective Language for Visual Art ### 余紹桓 ### paper :arrow_right: [ArtEmis: Affective Language for Visual Art](https://paperswithcode.com/paper/artemis-affective-language-for-visual-art?fbclid=IwAR1zwNfOAAzw6NPLyN2q355HV8Sk_6TzRexe_132FsnPmbzVpQqqlbI-T7k) ### 稍微介紹 ArtEmis是他們所創造出來的數據庫，裡面包含了80K張藝術圖片，並讓許多受試者寫下對某些圖片的感受 (Happy , Sad, Angry, Disgust, Fear..) 以及對這些藝術圖的形容表達。同時他們也提供了一種model，是用該數據庫訓練的，能夠對輸入的圖片進行**感受上的分類** (Happy , Sad, Angry, Disgust ...) 並產生**情感表達上的描述**，或是**形狀上的比喻**，大致的範例如下： ![](https://i.imgur.com/djBZify.png) --- ## Self-Supervised Image-to-Text and Text-to-Image Synthesis ### 羅邦倚 ### Paper :arrow_right: https://arxiv.org/abs/2112.04928 ### Source Code :arrow_right: https://github.com/anindyasdas/selfsupervisedimagetext ### 介紹 Image-to-Text 能用自然語言去描述一張原始圖片，Paper裡的範例: ![](https://i.imgur.com/RrG2nwY.png) 可以用來標記網路上大量沒有註記的圖片，或是讓chatbot能夠對使用者傳的圖片做出相關的回應等等。近期大部分關於Image-to-Text的研究都是使用supervised learning-based的model，這篇論文利用self-supervised learning的方式以及大量未標記的圖片訓練Image-to-Text的模型。 ___ ## Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm ### 陳明閎 ### Paper https://arxiv.org/pdf/1712.01815v1.pdf ### Source Code https://paperswithcode.com/paper/mastering-chess-and-shogi-by-self-play-with-a ### 介紹 AlphaZero是一個類似AlphaGo Zero但也適用於西洋棋、將棋等棋類的強化學習演算法。訓練時只須輸入基本規則，無須提供任何額外資訊(棋譜、定式...等)。因為要能夠支援多種棋類，不能像AlphaGo Zero一樣做一些只適用於圍棋的優化或augmentation(例如將盤面作對稱/旋轉)，但與AlphaGo Zero一樣使用蒙地卡羅樹搜尋算法。 # Papers ## Resolution-robust Large Mask Inpainting with Fourier Convolutions ### 黃鈺涵 ### paper：https://paperswithcode.com/paper/resolution-robust-large-mask-inpainting-with?fbclid=IwAR1vo_s1IWqD27v83lJegZfg3TSx5sJu0-ldXmmBGCRRUuokJV73x1QxSQw ### 稍微介紹幾個月前推出的pixel 6就是以類似的技術，魔術橡皮擦做為賣點除了能做到消除背景人像以外在比較複雜的景象中也能還原出原來的樣貌 ## DeepFake Detection ### 張祝維 ### paper：https://paperswithcode.com/task/deepfake-detection?fbclid=IwAR3MQ6_L_hH9TQwfVzpSQy-XFLkUHKBgzUnefyUv8Y2UKO8UweNp4lwAeTI ### 稍微介紹

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.