Tsen

@tsen159

Joined on Aug 8, 2022

  • 上一篇筆記: https://hackmd.io/@tsen159/RLNote 內容包含 RL 的介紹、Markov decision process、model-based evaluation and control。 Model-free RL 演算法可根據我們想要最佳化的目標,分為 value-based、policy-based 和混雜的 actor-critic: Valued-based:一種基於 value function 的方法,試圖直接學習最優 policy 的 value function,而不是學習最優 policy 本身 Policy-based:直接學習 policy,相較於 value-based 更適合用在高維或連續的 action spaces,且可以學習 stochastic policy Policy Optimization
     Like 2 Bookmark
  • 111學年第二學期選修交大資工所謝秉均老師開設之強化學習原理。 因為觀念複雜且不容易消化,所以決定在每次上完課之後,好好把課堂學到的東西整理成筆記,內化成自己的。 (希望我能堅持下去QQ) 另外我在上這堂課的同時,也有看 Stanford 的線上 RL 課程,所以筆記可能也會稍微整合一些些 Stanford 線上課的內容。 Reinforcement Learning | Stanford Online: https://www.youtube.com/watch?v=FgzM3zpZ55o&list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u&index=1
     Like 3 Bookmark
  • 當時在進行碩論研究,替我的任務挑適合的圖神經網路 (GNN) 架構時,了解到 GNN 模型具有直推式 (transductive) 和歸納式 (inductive) 兩種學習的設定,覺得十分神奇,最近複習的時候突然回憶起來,決定記錄一下。 Graph data 具有節點和邊,可以透過邊來得到鄰居節點的資訊,這也導致一個問題:如果未知的測試節點有邊連接的訓練用的節點,那我們在訓練的時候要把這個邊考慮進去嗎? 直推式 (Transductive) 如果訓練時利用到了整個圖的結構,模型訓練時可以看到測試節點和與其連接的邊,那麼這個模型就是使用直推式學習。 GNN 的經典 GCN 論文當中就是使用直推式學習,訓練時輸入的是整個鄰接矩陣 (adjacency matrix),因此聚合時會考慮到測試集節點,計算 loss 時才會只計算訓練節點。 直推式因為考慮了完整的圖結構,因此通常能得到較好的推論結果,然而也因為訓練時輸入整個圖,很大的問題便是無法處理在訓練時完全未見過的新節點或新圖。
     Like  Bookmark
  • 課程: DeepLearning.AI 的 ChatGPT Prompt Engineering for Developers Intro LLM 可分為兩種類型: Base LLM:根據訓練資料預測下一個下一個詞彙 Intruction tuned LLM:微調於特定指令,可以很好地遵循指令 提示工程可以讓 Intruction tuned LLM 產生更符合我們需求的結果。
     Like  Bookmark
  • 在機器學習相關競賽中,集成學習 (Ensemble Learning) 是非常常使用到的技巧,而且能夠大幅提升預測的表現,擠進 leaderboard 前段班。 集成學習將多個模型的結果組合在一起,來獲得比單獨使用一種方法更好的結果。 為何要使用集成學習? 彌補單一模型的不足 每個模型在學習時都有其 bias 和 variance。單一模型可能在某些資料點上表現很好,但在其他點上卻不理想。集成學習可以通過集合這些不同模型的結果,平均掉個別模型的錯誤。 保留各種模型的優點 不同的模型可能從資料中學習到不同的模式和關係,集成多種類型的模型可以利用它們各自的優勢,從資料中獲得更豐富的資訊。
     Like  Bookmark
  • 準確率 (Accuracy)、精確率 (Precision)、召回率 (Recall)、F1-Score 是評估分類模型表現時常用的四個重要指標,分別著重於不同的角度。 假設有一個二分類問題,樣本具有正負兩個類別,則我們可以根據真實標籤和預測標籤得到混淆矩陣 (confusion matrix): ![image](https://hackmd.io/_uploads/r1co3mUxge.png =450x) TP:預測為陽性 (P),預測正確 (T) FP:預測為陽性 (P),預測錯誤 (F) TN:預測為陰性 (N),預測正確 (T) FN:預測為陰性 (N),預測錯誤 (F)
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2307.08436 發表於 ICCV 2023 Introduction 這篇研究探討 knowledge distillation 在 optimization 過程中所出現的特性,並且提出 DOT,一個新的 knowledge distillation optimization 方法。 截圖 2024-02-29 上午1.55.26 Knowledge distillation 用來將知識從比較大的模型 (teacher model) 轉移到比較小的模型上 (student model),典型的 knowledge distillation objective function 通常包含兩個部分:task loss (e.g. cross-entropy loss) 以及 distillation loss (e.g. KL divergence),亦即:
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2303.13744 發表於 CVPR 2023 Overview Conditional image-to-video generation (cI2V) 的目標是利用給定的一張 image 和某個條件來生成一段影片,例如給定一張人臉圖片和條件「生氣」,生成一段這個人臉生氣的影片。這個任務困難之處在於需要同時處理空間與時間兩個面向。 本篇研究提出一個新的架構來進行 conditional image-to-video generation。作者不選擇直接生成影片的一整個 frame,而是提出使用 latent flow diffusion model (LFDM) 來生成 optical flow,再和給定的 image 進行 warping 得到影片。這樣的作法因為將空間與時間上的資訊分開處理,因此他們提出的 LFDM 比起 SOTA 方法有更好的生成結果。 下圖為一些生成的例子,每一個例子的第二排是使用 LFDM 生成的 optical flow,第一排則是最終得到的影片。
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2210.09276 發表於 CVPR 2023 Overview 本篇論文主要的貢獻是提出了一個新的 image editing 方法。 作者先說明目前現有的 text-conditioned image editing 方法常有的限制包含: 只能使用特定的編輯方式,例如添加物品,風格轉換等等 只能對特定 domain 的圖像進行編輯
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2305.02301 Introduction 大型語言模型(Large Language Model, LLM)通常需要很大的記憶體以及很多的運算資源才能夠運作,所以在實務上常常會透過 finetuning 或 distilling 來訓練一個比較小的 task-specific model。但是 finetuning 和 distilling 需要大量的 training data,才能達到和 LLM 差不多的表現。 本篇作者提出 Distilling step-by-step 來訓練 task-specific model,這個方法可以用更少的 training data 訓練出 size 更小的模型,但能力可以匹敵甚至超越 LLM。 Methods LLM 具有生成 rationales 的能力,也就是可以為自己的 prediction 提供解釋,Distilling step-by-step 最主要就是使用 LLM 生成的 rationales 來訓練模型以達成目的。下圖概述了 Distilling step-by-step 的整個過程:提取 labels 和 rationales,接著用來訓練 model。
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2302.06586 發表於 CVPR 2023 Overview 本篇研究提出 Stitchable Neural Networks (SN-Net),是一個可擴展的深度學習架構。具體而言,選擇屬於同一個 model family 但不同大小的 pretrained models,例如:DeiT-Ti/S/B,彼此之間用一些簡單的 stitching layers 連接在一起成為一個網路,經過少量的 fine-tuning steps 之後,這個網路即為 SN-Net。只要在 runtime 選擇不同的 stitching layers,就可以像插值一般產生不同 complexity 和 performance 的子網路。這些子網路的規模大小都不同,因此可以應對各種資源限制。 截圖 2023-11-20 下午10.02.46 這樣的做法優勢在於,可以有效利用現存的 pretrained model,而不需要從頭訓練特定大小的模型。和過往的 scalable deep learning frameworks 的差異在於 SN-Net 縫合多個模型,並且也可以產生多個不同 scale 的子網路,是一個 many-to-many 的架構。
     Like  Bookmark
  • Overview GNN 必須依靠 message passing 來獲取周邊鄰居的 node representations,當資料龐大的時候,graph 可能非常複雜,需要大量計算資源才能進行 inference,因此可能會因為資源的限制難以在實際應用上使用。 為了解決這個問題,過去的研究嘗試利用 teacher GNN 訓練 student MLP 來代替 GNN 進行 inference。然而這樣做還會存在一些問題: node labels 和 graph structure 可能具有相關性,因此 MLP 並沒有辦法完全學到如何將 content space 映射到 label space MLP 依賴 teacher model 的輸出來學習一個 hard matching,忽略了節點之間的 representational similarity MLP 對 noise 十分敏感 本篇研究提出了 NOise-robust Structure-aware MLPs On Graphs (NOSMOG) 來解決以上這些問題。NOSMOG 一共引入三種技巧來訓練 student MLP:
     Like  Bookmark
  • 論文連結:https://arxiv.org/abs/2212.09034 發表於 ICLR 2023 Overview 本篇論文透過實驗,指出 GNN 在 node-level 預測任務上表現良好的原因主要因為 GNN 本身的 generalization 能力,而非 expressivity。 Expressivity:指模型在訓練集上學習 representation 的能力 Generalization:指模型泛化到新數據的能力,可以用測試集和訓練集兩者的 loss 之間的差異來表示 作者設計了一個新的模型架構 PMLP (Propagational MLP),這個模型在訓練階段和一般的 MLP 相同,但在測試階段加入了 GNN 的 message passing layers。他們將 PMLP 訓練於各種 node classification benchmarks 上,發現以下兩個現象:
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2303.17604 發表於 CVPR 2023 ECV Workshop 相關研究: Token Merging: Your ViT But Faster (ICLR 2023) 筆記:https://hackmd.io/@tsen159/token_merging 論文:https://arxiv.org/abs/2210.09461 Introduction
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2210.09461 發表於 ICLR 2023 Introduction 這篇研究介紹了 Token Merging (ToMe),是一個用於提升 ViT 模型 throughput 的方法。這個方法可以用於 training,提升訓練的速度,也可以直接使用在訓練好的模型上,提升 inference time 的 throughput。 ToMe 的基本概念是透過 matching algorithm 將相似的 tokens 合併在一起,讓 transformer 可以不用對這麼多 tokens 進行運算,因而提升速度。實驗發現 ToMe 的準確度和速度都能和 state-of-the-art 相匹敵。 Token Merging
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2301.05221 Overview 這篇論文提出了一個方法,擴展 Stable Diffusion model 來完成 object grounding,也就是在生成 image 的同時,也針對文字 prompt 描述的物體進行分割。他們主要的貢獻包含: 建立了一個生成 dataset 的流程,用以訓練他們提出的模型 提出了一個架構,可以同時生成 image 和把文字裡提到的物體分割出來 經過 evaluate 之後,證實這個架構可以分割在訓練階段沒看過的類別
     Like  Bookmark
  • (這篇真的很有趣!) 論文連結: https://arxiv.org/abs/2212.04089 Overview 這篇論文介紹了一種新的概念:task arithmetic,是利用 task vector 來對模型進行編輯(editing)的方法。 Editing: 指模型 pre-trained 之後,任何對模型進行修改的行為 Task vector: 指定模型在 weight space 的某個方向,如果將模型的 weight 往此方向修改,會增進此 task 的表現
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2302.05981 Introduction 本篇研究提出了 MarioGPT,是基於 GPT-2 模型微調(fine-tune)訓練而成的瑪利歐遊戲關卡生成模型。透過輸入文字提示,就可以讓模型生成相對應特色的關卡。此外,作者結合 MarioGPT 與新穎性搜索(novelty search),能夠生成多樣化的關卡,達成了開放式(open-ended)生成,意即關卡的生成是多樣化而無限制的。 ![](https://i.imgur.com/ahOcmX7.png =500x) Dataset Used 訓練使用的資料是超級瑪利歐兄弟(Super Mario Bros.)和超級瑪利歐兄弟:失落的關卡(Super Mario Bros.: The Lost Levels)裡面的關卡,取自於 Video Game Level Corpus (VGLC) 。每個關卡都是 path-annotated level,意思是遊戲角色走的路徑都有在關卡資料裡標註。關卡資料是用字串來表示的,每個物件都用特定符號來代表,例如以下關卡:
     Like  Bookmark
  • 論文連結: https://arxiv.org/abs/2211.17256 Overview 這篇研究提出了一個使用不同類型和層級的抽象概念將给定場景(scene)圖像轉換成草圖的方法。例如以下左圖,每張圖片都有兩個草圖作為例子,左邊的更接近原圖也比較精細,右邊的比較抽象也更鬆散。 作者將草圖的抽象概念區分成兩類,分別是保真度(fidelity)和簡化度(simplicity),並且用兩個 axes 分別控制這兩個方向的程度差異。沿著 fidelity axis,草圖的樣子會從更精確、更接近原圖構造的圖像逐漸轉變成比較鬆散的圖像;沿著 simplicity axis,草圖的樣子會從細節較多轉變成比較稀疏的描繪。 過去有少許的研究專注於生成不同層級抽象概念的草圖,但這些研究都是以物品或肖象畫為主,而非場景圖。作者更指出說過往並沒有研究會將抽象概念區分成不同的種類,因此提出這個想法是他們創新的部分。
     Like  Bookmark
  • 論文名稱: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 發表於 ICCV 2021,論文連結: https://arxiv.org/abs/2103.17249 這篇研究旨在找到方法來透過文字對圖像進行修飾 (image manipulation),意即透過文字輸入來改變指定的圖像 attribute,以下為一些研究成果: 自 StyleGAN 問世之後,近期有越來越多研究關於如何利用 StyleGAN 的 latent space 來對圖像進行各式編輯,然而多數方法都需要人工檢查或利用標註的資料,才能對圖像進行語意上具有意義的操作。
     Like  Bookmark