8/23 paper進度回報

###### tags: `paper進度` # 8/23 paper進度回報 ## 上週之回答 ### 1. 黑克松近況: 後來討論過沒有把上周介紹的簡易英文版paraphasing試著轉為中文拿來用理由是有人提議可以直接拿我們強化學習期末專題做的ptt聊天機器人(浩霖做的拿來改)來改我們這次做的題目是要防止使用者在網路上的留言被告流程就是最開始會把使用者輸入的字當作input輸入進去我們train的一個判斷會不會被告的 (分類任務)bert 如果判斷會被告就在丟進去我們的paraphasing model讓他改寫最後再丟回分類器判斷生成出來的還會不會被告還會被告的話就額外接一個我們自己建立的辭典去把句子中惡意的話替換掉總之現在進度OK 就只差要做好簡報剩下詳細的可以開學後跟老師分享之類的 ### 2.GAR與以IR幫助QA的看法恩跟我最近一次報過利用生成去生成維基百科中的標題去做IR來做open domain QA的方法蠻像的我目前就是想嘗試這種IR結合NLP的方向但其實有點擔心做出不來新變化(也是自己沒有很認真想過其他方法) 乍看之下最常見的就2類 1種是可能透過IR來取代QG時的argmax top-k的地方另外一種就是透過生成之類來生IR的query ### 3. prompt 沒錯跟GPT3的prompt概念一樣就是透過餵給model關鍵字們讓model生成方向更具體一點就像老師說的這個方法效果就是來自於model的能力本身我們只是找到了方式去激發他的潛能我下面的本周進度報告會提到我對這個方向的想法 ## 本周進度報告 ### 1.Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing 這篇就是我上禮拜提到的paper，主要是在解釋prompt的概念研究方向等類似說明書的一篇由於篇幅十分龐大加上從老師上週給的意見看來對這領域有所疑慮所以沒有細讀但有蠻些想法想訊問老師的意見。註:找prompt就類似於找一個適合model的模板這篇paper主要是在介紹以自動的方式去找到prompt的方法(自動化模板學習) 因為人工找到prompt非常需要經驗和時間所以就會有了透過各種方式自動找到prompt的研究方向也是我覺得蠻有研究價值的方向講解幾個paper中提到的與我們領域有關的找法 #### 模板範例: ![](https://i.imgur.com/KwuMfgv.png) * Prompt Generation 例: 1.透過text filling的方式讓t5生成模板 2.單純給很多模板例子讓t5學 3.讓t5為每個input生成唯一的域相關特徵 -> 域相關特徵:unique domain relevant features (DRFs; a set of keywords that characterize domain information) * Prompt Paraphrasing 例:生成很多類似的prompt看哪個效果最好 * Prompt Scoring 一個專門為prompt scoring的model #### 感想: 看到蠻多是用生成的方式來找prompt的所以才覺得感覺我們也可以研究看看主要變化的點可能是在如何尋找prompt 那我直覺會想到如果是有關查找的話或許可以套用IR進去讓找的這個動作優化。然後或許也可以引入對比學習中因為查找的過程跟對比學習類似也是會去對每個prompt的特徵去做比較總之我覺得尋找prompt會是個蠻新且不錯的任務因為如果真的找到不錯的prompt 那麼分數自然也會好看加上因為只是改input這個簡單的方式所以蠻好實作的可能就會蠻受青睞 ### 2.DYPLOC - Dynamic Planning of Content Using Mixed Language Models for Text Generation https://arxiv.org/pdf/2106.00791.pdf ### 動機主要想解決的是觀點型長文本中的1.缺乏一致性2.需要更多樣性(多種層面的知識)的信息加進去input中 ### 作法這種觀點型文本生成的input會是很多的content 每個content會包含title跟entities(EX:{United States,9/11 attacks})以及concept{attack, knowledge}。例:![](https://i.imgur.com/MNJeGpA.png) ##### 註:claim是後面生成的先不用管本篇paper有2個階段，第一階段先用bart對每個content生成更多的concept。再用bart以title 和entities生成claim 最後把他們都接在一起然後進入下一個階段所謂的 mixed LM:也就是會平行的把每個上一階段接好的input(content representation) 丟進去一個評分網路然後決定這個當下contents的重要性排序再根據這個排序去做權重最後相加成一個機率根據scoring決定各個model的權重根據這些權重加起來就會得到當下的輸出詞機率 (有點像是選擇了最符合的content所預測的字但也多少會參考其他幾個content所預測的字) ### 感想後面的消融實驗有提到主要影響生成的其實就只有concept的部分 claim和entities其實都沒什麼影響這種丟關鍵字去影響生成其實也很像gpt3的prompt 另外就是動態決定當下要選擇哪個content的部分是我覺得蠻新穎的地方因為以往不能同時把很多句同時當bart 的input 這裡的方法是先分別丟進去最後加起來的方式解決這個問題讓model有了動態選擇的感覺是個不錯的方法