###### tags: `paper進度` # 8/23 paper進度回報 ## 上週之回答 ### 1. 黑克松近況: 後來討論過沒有把上周介紹的簡易英文版paraphasing試著轉為中文拿來用 理由是有人提議可以直接拿我們強化學習期末專題做的ptt聊天機器人(浩霖做的拿來改)來改 我們這次做的題目是要防止使用者在網路上的留言被告 流程就是最開始會把使用者輸入的字當作input輸入進去我們train的一個判斷會不會被告的 (分類任務)bert 如果判斷會被告 就在丟進去我們的paraphasing model讓他改寫 最後再丟回分類器判斷生成出來的還會不會被告 還會被告的話就額外接一個我們自己建立的辭典去把句子中惡意的話替換掉 總之現在進度OK 就只差要做好簡報 剩下詳細的可以開學後跟老師分享之類的 ### 2.GAR與以IR幫助QA的看法 恩 跟我最近一次報過利用生成去生成維基百科中的標題去做IR來做open domain QA的方法蠻像的 我目前就是想嘗試這種IR結合NLP的方向 但其實有點擔心做出不來新變化(也是自己沒有很認真想過其他方法) 乍看之下 最常見的就2類 1種是可能透過IR來取代QG時的argmax top-k的地方 另外一種就是透過生成之類來生IR的query ### 3. prompt 沒錯 跟GPT3的prompt概念一樣 就是透過餵給model關鍵字們讓model生成方向更具體一點 就像老師說的 這個方法效果就是來自於model的能力本身 我們只是找到了方式去激發他的潛能 我下面的本周進度報告會提到我對這個方向的想法 ## 本周進度報告 ### 1.Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing 這篇就是我上禮拜提到的paper,主要是在解釋prompt的概念 研究方向等 類似說明書的一篇 由於篇幅十分龐大 加上從老師上週給的意見看來對這領域有所疑慮 所以沒有細讀 但有蠻些想法想訊問老師的意見。註:找prompt就類似於找一個適合model的模板 這篇paper主要是在介紹以自動的方式去找到prompt的方法(自動化模板學習) 因為人工找到prompt非常需要經驗和時間 所以就會有了透過各種方式自動找到prompt的研究方向 也是我覺得蠻有研究價值的方向 講解幾個paper中提到的與我們領域有關的找法 #### 模板範例:  * Prompt Generation 例: 1.透過text filling的方式讓t5生成模板 2.單純給很多模板例子讓t5學 3.讓t5為每個input生成唯一的域相關特徵 -> 域相關特徵:unique domain relevant features (DRFs; a set of keywords that characterize domain information) * Prompt Paraphrasing 例:生成很多類似的prompt看哪個效果最好 * Prompt Scoring 一個專門為prompt scoring的model #### 感想: 看到蠻多是用生成的方式來找prompt的 所以才覺得感覺我們也可以研究看看 主要變化的點可能是在如何尋找prompt 那我直覺會想到如果是有關查找的話 或許可以套用IR進去 讓找的這個動作優化。 然後或許也可以引入對比學習中 因為查找的過程跟對比學習類似也是會去對每個prompt的特徵去做比較 總之我覺得尋找prompt會是個蠻新且不錯的任務 因為如果真的找到不錯的prompt 那麼分數自然也會好看 加上因為只是改input這個簡單的方式 所以蠻好實作的 可能就會蠻受青睞 ### 2.DYPLOC - Dynamic Planning of Content Using Mixed Language Models for Text Generation https://arxiv.org/pdf/2106.00791.pdf ### 動機 主要想解決的是觀點型長文本中的1.缺乏一致性2.需要更多樣性(多種層面的知識)的信息 加進去input中 ### 作法 這種觀點型文本生成的input會是很多的content 每個content會包含title跟entities(EX:{United States,9/11 attacks})以及concept{attack, knowledge}。 例: ##### 註:claim是後面生成的 先不用管 本篇paper有2個階段, 第一階段先用bart對每個content生成更多的concept。 再用bart以title 和entities生成claim 最後把他們都接在一起 然後進入下一個階段所謂的 mixed LM:也就是會平行的把每個上一階段接好的input(content representation) 丟進去一個評分網路 然後決定這個當下contents的重要性排序 再根據這個排序去做權重 最後相加成一個機率 根據scoring決定各個model的權重 根據這些權重加起來就會得到當下的輸出詞機率 (有點像是選擇了最符合的content所預測的字 但也多少會參考其他幾個content所預測的字) ### 感想 後面的消融實驗有提到 主要影響生成的其實就只有concept的部分 claim和entities其實都沒什麼影響 這種丟關鍵字去影響生成 其實也很像gpt3的prompt 另外就是動態決定當下要選擇哪個content的部分是我覺得蠻新穎的地方 因為以往不能同時把很多句同時當bart 的input 這裡的方法是先分別丟進去 最後加起來的方式解決這個問題 讓model有了動態選擇的感覺 是個不錯的方法
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up