履歷軌

@computerVision

Public team

Joined on Feb 19, 2021

  • 發展歷史1931 ~ 1954: 破解摩斯密碼,這項服務是被一位發明家 David Hammond Shepard 發明,為 Intelligent Machines Research Corporation 的產品 1954 ~ 1974: Optacon 這間公司製造了可攜帶式的 OCR 裝置(沒有查到他詳細的功能) 現在 (2021): Google 已經製造出 server 版 OCR API,而且準度超爆高! 教材 CRNN 教材CRNN + CTC 理論基礎原文 paperAn End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition (優先) 中文翻譯懶人包 (優先)
     Like  Bookmark
  • Introduction 物件追蹤包含兩個部分: <font color=#20639B>物件偵測</font> (Object detection)物件偵測在眾多算法百家爭鳴下, 其準確度已經高到一個境界,舉凡 YOLO, SSD, Retinanet, CenterNet, …都是很好的選擇,它的功用就是要抓到 image 內的 bounding box 以及物件classification <font color=#20639B>追蹤器</font> (tracker) 追蹤器要做的事呢基本上就是==判斷前後 frame 抓到的 object 是否屬於同一個==,若是則 assign 相同 ID,若否則 assign 新的 ID。如下圖,frame t 檢測到的 3 個 objects (黃、藍、紅),frame t+1 檢測到 4 個(灰色框),而要如何把前後 frame 的框關連起來就是物件追蹤要做的事 追蹤器 (tracker)
     Like 1 Bookmark
  • PRUNING FILTERS FOR EFFICIENT CONVNETS 剪枝 - Filter & feature maps 數學符號與圖例說明 $n_{i}$ : 第 i 層 input channel 數 $F_{i,j}$ : 第 i 層的第 j 個 filter $X_{i}$ : 第 i 層的 feature maps 模型運算量計算 :question: 如果剪掉其中一個 filter $F_{i,j}$,會減少多少運算量呢? 圖示如下:
     Like 1 Bookmark
  • Introduction 本篇論文主要針對中文手寫生成做優化 主要的概念在中文字並不是每個字都會用一樣的寫法 例如 所以本篇論文解離兩種style並用contrastive learning的方式來train它 writer-wise styles characterwise styles
     Like  Bookmark
  • AttentionHTR: Handwritten Text Recognition Based on Attention Encoder-Decoder Networks github: https://github.com/dmitrijsk/attentionhtr 很廢,就是拿Attention Model拿來fine tune連code都直接從clova那邊clone過來,augmentation都放在furture work的paper 但我想拿這篇來用... 用Iam和Imgur5K兩個手寫dataset來FineTune Transformer-based Optical Character Recognition with Pre-trained Models github: https://github.com/microsoft/unilm/tree/master/trocr
     Like  Bookmark
  • 簡介 :pushpin: 本篇論文是 FB 首度將 NLP 的 transformer 用在 CV 的 object detection 上,將 object detection 視作一個 direct set prediction problem,並且精簡了很多 object detection 上的額外操作(non-maximum suppression, anchor generation) 的 state-of-art 的目標檢測模型。(2020 年的拍謝XD) github codes 與傳統 Faster R-CNN 流程比較 流程非常的簡潔 模型架構
     Like  Bookmark
  • 收集資料紀錄 檔名即答案_{亂碼}.png 紅字資料夾名稱暫定移除 資料夾名稱 來源 說明 資料量 大小(MB) 上傳者
     Like  Bookmark
  • 模型结构 Patch Embedding 输入图片shape=[h,w,3],patch embedding的作用是输出一个shape=[h//4,w//4,d]的patches。 鉴于文字识别是一个细粒度任务,对图像细节的描述有一定的要求,这里作者摒弃了VIT中直接用大卷积核生成这些pathes,而采用了ResNetv1d中的stem结构来产生这些patch,比较简单,不再赘述。后面作者也做了消融实验验证了这样做是最优的。 MSA multi-head self-attention (MSA),所谓的MSA就是采用定义h个attention heads,即采用h个self-attention应用在输入sequence上,在操作上可以将sequence拆分成h个size为[公式]的sequences,这里[公式],h个不同的heads得到的输出concat在一起然后通过线性变换得到最终的输出,size也是[公式]
     Like  Bookmark
  • 從前的Detection輸出都是bbox(xmin ymin, xmax, ymax) 並沒有加入角度的資訊在裡面,所以通常在會在aug利用旋轉數據來增強 中心點坐標、寬度、高度和旋轉角度 $(x,y,w,h,\theta)$ a) 短邊定義法 b) 長邊定義法 c) 有序四邊形定義法 邊界問題
     Like  Bookmark
  • [paper] DocReader: Bounding-Box Free Training of a Document Information Extraction Model Document Information Extraction 2021 年的 paper, Germany, SAP Abstract 提出一種 ==End to End 的架構==:DocReader,可以直接給定一張圖片,輸出目標文字的 values 過去的方法
     Like  Bookmark
  • Multimodal Pre-training for Multilingual Visually-rich Document Understanding, CV + NLP的Layout Language model Objective 做全文辨識之後要怎麼將這些辨識的結果變成有意義的資訊 Contribution 整合image, text, layout的Multi-modal Transformer model 在pre-train階段的時候, 利用一些策略去整合image, text, layout的資訊
     Like  Bookmark
  • 前導知識 CAM(Class Activation Map) 了解一個執行圖像分類任務的 CNN 在它自身的網路裡是因為看重照片中的哪一個區域 https://medium.com/ai-academy-taiwan/%E4%BA%86%E8%A7%A3-cnn-%E9%97%9C%E6%B3%A8%E7%9A%84%E5%8D%80%E5%9F%9F-cam-%E8%88%87-grad-cam-%E7%9A%84%E4%BB%8B%E7%B4%B9%E5%88%86%E4%BA%AB-2206dd1017c8 因果推論和干預 從這個例子來看,會有性別服藥比例不同的混雜因子存在 這個時候就要發動因果干預,後門準則
     Like  Bookmark
  • [paper] Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [GitHub] 連結 沒有公開 release code,但可以寫信去要,純學術用途的樣子~~ Video Anomaly Detection 影片異常檢測基本上是==非監督學習==的 task,目標在於發現影片中異常的模式或動作,這些異常定義是不頻繁的或者說是稀有事件。==異常通常是缺乏標記的==,自然也缺乏標記數據來訓練 異常包括有變化多樣的少有的異常事情和沒見過的物體等
     Like  Bookmark
  • 背景補充 :question: RELU 有什麼優缺點 優點 easy to compute so that the neural network converges very quickly As its derivative is not 0 for the positive values of the neuron (f’(x)=1 for x ≥ 0), ReLu does not saturate and no dead neurons are reported. 缺點
     Like  Bookmark
  • 2/22~3/5 各 track 準備研究內容,3/8 號之後每週二研討 週次 主題 負責組別 日期 Week 1 CRNN + CTC[paper] An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition[blog] 上面那篇 paper 的中文翻譯懶人包 [code] Belval/CRNN track A
     Like  Bookmark
  • [paper] Distilling the Knowledge in a Neural Network [李鴻毅老師講解] Yotube連結 Knowledge Distillation 介紹 2015 年 Paper,作者為人稱「神經網路之父」、「深度學習鼻祖」的 Geoffrey Hinton Abstract 主要有兩點的貢獻:
     Like  Bookmark
  • 參考資料 https://towardsdatascience.com/distilling-knowledge-in-neural-network-d8991faa2cdc https://zhuanlan.zhihu.com/p/292797265 Using the class probabilities as a target class provides much more information than simply using just the raw target. student net 甚至可以學習 teacher net 的 ensemble output temperature 加 temperature 是為了要讓 softmax 的 output 不要太接近於 onehot (就跟直接給 label 的效果差不多),讓不同類別的分數被拉近一點,希望讓模型學到不同 class 之間的相關性,所以做了這樣的調整 (ex. 1 跟 7 的手寫樣子其實蠻像的)
     Like  Bookmark
  • A simple yet effective reflection-free cue for robust reflection removal from a pair of flash and ambient (no-flash) images. Reflection Removal 區分真實的物件與反光 共有兩種光源 自然環境光 ambient light 相機閃光 flash Ambient illumination (RGB/raw images under ambient illumination.)
     Like  Bookmark
  • 1. 本次介紹 ONNX 模型轉換 QUANTIZATION 模型壓縮 2. ONNX 模型轉換 2.1 ONNX 介紹 https://onnx.ai/ ONNX(Open Neural Network Exchange)是一種針對機器學習所設計的開放式的文件格式,用於存儲訓練好的模型。
     Like  Bookmark
  • 2021/9/29 驗證碼放置區-信賢的 google drive 2021/9/22 討論 下次開會時間: 9/29 下次須完成的進度 RPA: 收集好要訓練的驗證資料 image segmentation: 確認能不能從描述物件的多點中,找到關鍵的 6 個點做物件校正
     Like  Bookmark