Tsen

@tsen159

Joined on Aug 8, 2022

  • 111學年第二學期選修交大資工所謝秉均老師開設之強化學習原理。 因為觀念複雜且不容易消化,所以決定在每次上完課之後,好好把課堂學到的東西整理成筆記,內化成自己的。 (希望我能堅持下去QQ) 另外我在上這堂課的同時,也有看 Stanford 的線上 RL 課程,所以筆記可能也會稍微整合一些些 Stanford 線上課的內容。 Reinforcement Learning | Stanford Online: https://www.youtube.com/watch?v=FgzM3zpZ55o&list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u&index=1
     Like 3 Bookmark
  • 準確率 (Accuracy)、精確率 (Precision)、召回率 (Recall)、F1-Score 是評估分類模型表現時常用的四個重要指標,分別著重於不同的角度。 假設有一個二分類問題,樣本具有正負兩個類別,則我們可以根據真實標籤和預測標籤得到混淆矩陣 (confusion matrix): ![image](https://hackmd.io/_uploads/r1co3mUxge.png =450x) TP:預測為陽性 (P),預測正確 (T) FP:預測為陽性 (P),預測錯誤 (F) TN:預測為陰性 (N),預測正確 (T) FN:預測為陰性 (N),預測錯誤 (F)
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2307.08436 發表於 ICCV 2023 Introduction 這篇研究探討 knowledge distillation 在 optimization 過程中所出現的特性,並且提出 DOT,一個新的 knowledge distillation optimization 方法。 截圖 2024-02-29 上午1.55.26 Knowledge distillation 用來將知識從比較大的模型 (teacher model) 轉移到比較小的模型上 (student model),典型的 knowledge distillation objective function 通常包含兩個部分:task loss (e.g. cross-entropy loss) 以及 distillation loss (e.g. KL divergence),亦即:
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2303.13744 發表於 CVPR 2023 Overview Conditional image-to-video generation (cI2V) 的目標是利用給定的一張 image 和某個條件來生成一段影片,例如給定一張人臉圖片和條件「生氣」,生成一段這個人臉生氣的影片。這個任務困難之處在於需要同時處理空間與時間兩個面向。 本篇研究提出一個新的架構來進行 conditional image-to-video generation。作者不選擇直接生成影片的一整個 frame,而是提出使用 latent flow diffusion model (LFDM) 來生成 optical flow,再和給定的 image 進行 warping 得到影片。這樣的作法因為將空間與時間上的資訊分開處理,因此他們提出的 LFDM 比起 SOTA 方法有更好的生成結果。 下圖為一些生成的例子,每一個例子的第二排是使用 LFDM 生成的 optical flow,第一排則是最終得到的影片。
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2210.09276 發表於 CVPR 2023 Overview 本篇論文主要的貢獻是提出了一個新的 image editing 方法。 作者先說明目前現有的 text-conditioned image editing 方法常有的限制包含: 只能使用特定的編輯方式,例如添加物品,風格轉換等等 只能對特定 domain 的圖像進行編輯
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2305.02301 Introduction 大型語言模型(Large Language Model, LLM)通常需要很大的記憶體以及很多的運算資源才能夠運作,所以在實務上常常會透過 finetuning 或 distilling 來訓練一個比較小的 task-specific model。但是 finetuning 和 distilling 需要大量的 training data,才能達到和 LLM 差不多的表現。 本篇作者提出 Distilling step-by-step 來訓練 task-specific model,這個方法可以用更少的 training data 訓練出 size 更小的模型,但能力可以匹敵甚至超越 LLM。 Methods LLM 具有生成 rationales 的能力,也就是可以為自己的 prediction 提供解釋,Distilling step-by-step 最主要就是使用 LLM 生成的 rationales 來訓練模型以達成目的。下圖概述了 Distilling step-by-step 的整個過程:提取 labels 和 rationales,接著用來訓練 model。
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2302.06586 發表於 CVPR 2023 Overview 本篇研究提出 Stitchable Neural Networks (SN-Net),是一個可擴展的深度學習架構。具體而言,選擇屬於同一個 model family 但不同大小的 pretrained models,例如:DeiT-Ti/S/B,彼此之間用一些簡單的 stitching layers 連接在一起成為一個網路,經過少量的 fine-tuning steps 之後,這個網路即為 SN-Net。只要在 runtime 選擇不同的 stitching layers,就可以像插值一般產生不同 complexity 和 performance 的子網路。這些子網路的規模大小都不同,因此可以應對各種資源限制。 截圖 2023-11-20 下午10.02.46 這樣的做法優勢在於,可以有效利用現存的 pretrained model,而不需要從頭訓練特定大小的模型。和過往的 scalable deep learning frameworks 的差異在於 SN-Net 縫合多個模型,並且也可以產生多個不同 scale 的子網路,是一個 many-to-many 的架構。
     Like  Bookmark
  • Overview GNN 必須依靠 message passing 來獲取周邊鄰居的 node representations,當資料龐大的時候,graph 可能非常複雜,需要大量計算資源才能進行 inference,因此可能會因為資源的限制難以在實際應用上使用。 為了解決這個問題,過去的研究嘗試利用 teacher GNN 訓練 student MLP 來代替 GNN 進行 inference。然而這樣做還會存在一些問題: node labels 和 graph structure 可能具有相關性,因此 MLP 並沒有辦法完全學到如何將 content space 映射到 label space MLP 依賴 teacher model 的輸出來學習一個 hard matching,忽略了節點之間的 representational similarity MLP 對 noise 十分敏感 本篇研究提出了 NOise-robust Structure-aware MLPs On Graphs (NOSMOG) 來解決以上這些問題。NOSMOG 一共引入三種技巧來訓練 student MLP:
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2212.09034 發表於 ICLR 2023 Overview 本篇論文透過實驗,指出 GNN 在 node-level 預測任務上表現良好的原因主要因為 GNN 本身的 generalization 能力,而非 expressivity。 Expressivity:指模型在訓練集上學習 representation 的能力 Generalization:指模型泛化到新數據的能力,可以用測試集和訓練集兩者的 loss 之間的差異來表示 作者設計了一個新的模型架構 PMLP (Propagational MLP),這個模型在訓練階段和一般的 MLP 相同,但在測試階段加入了 GNN 的 message passing layers。他們將 PMLP 訓練於各種 node classification benchmarks 上,發現以下兩個現象:
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2303.17604 發表於 CVPR 2023 ECV Workshop 相關研究: Token Merging: Your ViT But Faster (ICLR 2023) 筆記:https://hackmd.io/@tsen159/token_merging 論文:https://arxiv.org/abs/2210.09461 Introduction
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2210.09461 發表於 ICLR 2023 Introduction 這篇研究介紹了 Token Merging (ToMe),是一個用於提升 ViT 模型 throughput 的方法。這個方法可以用於 training,提升訓練的速度,也可以直接使用在訓練好的模型上,提升 inference time 的 throughput。 ToMe 的基本概念是透過 matching algorithm 將相似的 tokens 合併在一起,讓 transformer 可以不用對這麼多 tokens 進行運算,因而提升速度。實驗發現 ToMe 的準確度和速度都能和 state-of-the-art 相匹敵。 Token Merging
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2301.05221 Overview 這篇論文提出了一個方法,擴展 Stable Diffusion model 來完成 object grounding,也就是在生成 image 的同時,也針對文字 prompt 描述的物體進行分割。他們主要的貢獻包含: 建立了一個生成 dataset 的流程,用以訓練他們提出的模型 提出了一個架構,可以同時生成 image 和把文字裡提到的物體分割出來 經過 evaluate 之後,證實這個架構可以分割在訓練階段沒看過的類別
     Like  Bookmark
  • (這篇真的很有趣!) 論文連結: https://arxiv.org/abs/2212.04089 Overview 這篇論文介紹了一種新的概念:task arithmetic,是利用 task vector 來對模型進行編輯(editing)的方法。 Editing: 指模型 pre-trained 之後,任何對模型進行修改的行為 Task vector: 指定模型在 weight space 的某個方向,如果將模型的 weight 往此方向修改,會增進此 task 的表現
     Like  Bookmark
  • 上一篇筆記: https://hackmd.io/@tsen159/RLNote 內容包含 RL 的介紹、Markov decision process、model-based evaluation and control。 Model-free RL 演算法可根據我們想要最佳化的目標,分為 value-based、policy-based 和混雜的 actor-critic: Valued-based:一種基於 value function 的方法,試圖直接學習最優 policy 的 value function,而不是學習最優 policy 本身 Policy-based:直接學習 policy,相較於 value-based 更適合用在高維或連續的 action spaces,且可以學習 stochastic policy Policy Optimization
     Like 2 Bookmark
  • 論文連結: https://arxiv.org/abs/2302.05981 Introduction 本篇研究提出了 MarioGPT,是基於 GPT-2 模型微調(fine-tune)訓練而成的瑪利歐遊戲關卡生成模型。透過輸入文字提示,就可以讓模型生成相對應特色的關卡。此外,作者結合 MarioGPT 與新穎性搜索(novelty search),能夠生成多樣化的關卡,達成了開放式(open-ended)生成,意即關卡的生成是多樣化而無限制的。 ![](https://i.imgur.com/ahOcmX7.png =500x) Dataset Used 訓練使用的資料是超級瑪利歐兄弟(Super Mario Bros.)和超級瑪利歐兄弟:失落的關卡(Super Mario Bros.: The Lost Levels)裡面的關卡,取自於 Video Game Level Corpus (VGLC) 。每個關卡都是 path-annotated level,意思是遊戲角色走的路徑都有在關卡資料裡標註。關卡資料是用字串來表示的,每個物件都用特定符號來代表,例如以下關卡:
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2211.17256 Overview 這篇研究提出了一個使用不同類型和層級的抽象概念將给定場景(scene)圖像轉換成草圖的方法。例如以下左圖,每張圖片都有兩個草圖作為例子,左邊的更接近原圖也比較精細,右邊的比較抽象也更鬆散。 作者將草圖的抽象概念區分成兩類,分別是保真度(fidelity)和簡化度(simplicity),並且用兩個 axes 分別控制這兩個方向的程度差異。沿著 fidelity axis,草圖的樣子會從更精確、更接近原圖構造的圖像逐漸轉變成比較鬆散的圖像;沿著 simplicity axis,草圖的樣子會從細節較多轉變成比較稀疏的描繪。 過去有少許的研究專注於生成不同層級抽象概念的草圖,但這些研究都是以物品或肖象畫為主,而非場景圖。作者更指出說過往並沒有研究會將抽象概念區分成不同的種類,因此提出這個想法是他們創新的部分。
     Like  Bookmark
  • 論文名稱: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 發表於 ICCV 2021,論文連結: https://arxiv.org/abs/2103.17249 這篇研究旨在找到方法來透過文字對圖像進行修飾 (image manipulation),意即透過文字輸入來改變指定的圖像 attribute,以下為一些研究成果: 自 StyleGAN 問世之後,近期有越來越多研究關於如何利用 StyleGAN 的 latent space 來對圖像進行各式編輯,然而多數方法都需要人工檢查或利用標註的資料,才能對圖像進行語意上具有意義的操作。
     Like  Bookmark
  • 概念 在一個終端機下開啟多個 windows,或者分割 windows 成 panel。每一個 panel 各自獨立執行一個 Terminal Instance,讓我們可以同時執行多個指令,而不需要開啟多個 Terminal 視窗。 原先打開一個 terminal 時,會和機器建立一個 session ,當我們關掉視窗時 session 會關閉,指令就會被中止。使用 tmux 意味著我們是通過 tmux server 來和機器建立 session,我們的操作視窗或視窗區塊則是跟 tmux server 溝通。 離開連線 (detaching) 時 tmux 會繼續維持這個 session ,直到把 tmux server 砍掉或者重開機的時候,因此隨時可以重新回到 (attaching) 上次離開 session 的狀態。 指令 tmux 預設使用 C-b 作為前置鍵,指的是 Ctrl+b 同時按後放開。 Detach seesion: C-b d:此時 session 仍在背景執行。
     Like 1 Bookmark