related work 林子安 === SPARTA: Efficient Open-Domain Question Answering via Sparse Transformer Matching Retrieval === 本篇論文在open domain question answer ing中提出了新型的算分方式,在訓練上作者會分別以token level的格式使問題和答案間進行分數計算,最終產生出一個能讓正確答案要較高分數的算分器 當使用者在使用前可以預先將大量的問題和答案對模型進行分數比較,最終每個token會產生一系列對應適當的答案候選 爾後使用者在詢問問題時能快速從各個token中找到各自的答案候選,交集之後就會產生最終答案,此查找過程完全不需要經過模型的運算,因此可以快速的回傳答案 在產生distractor的任務中SPARTA要有相應的資料集才能達成任務,但在提升使用時速度上他能提供很多的幫助 PAQ === 在這篇論文中作者分別提出了PAQ一種能大量產生資料的機制,以及RePAQ一種能處理這大量資料的retriever,在PAQ中作者修改以往使用問題從文章中尋找答案的機制,改為用文章中可能的答案去尋找問題,再由問題去尋找答案,最後比對兩個答案是否相同,藉此來讓機器學習到自主的從文章中找到問答對(q,a)的能力 在RePAQ中作者使用了傳統的MIPS方式,卻將以往由q和a進行分數比較的機制,改為使用q 來檢索PAQ中提出的大量(q',a')以有效的利用PAQ提供的資源,最終由檢索到的 QA 對生成一個答案,然後通過邊緣化生成最終答案 我們認為PAQ在創造distractor這件事是有困難的,因為他無法知道一個答案是錯誤但與答案相近不遠的情況,當然如果能開發出一種能順利產生distractor的機制,再利用RePAQ進行輔助這將能大大提升我們的語料庫生產效率 Diverse Distractor Generation for Constructing High-Quality Multiple Choice Questions === 如何辦到diverse與high quality? 在這篇論文中作者撇除傳統使用編碼器和解碼器組合機制,在文章中作者為了讓生成出的distractor更加多樣且與正確答案相差不遠,因次創造了一款監督式分類任務來找出文章中屬於關鍵句子(及對產生distractor有用的句子),作者在訓練之前會將訓練用的distractor和文章中的每個句子做比對,若該句子和distractor相似度達到一定程度,則該句子將成為文章中的關鍵句,但若文章中所有句子和distractor都無法達到一程度的相似度,則該訓練資料需要被刪除,透過這個方式在文章中能被修改成為新的distractor選項的句子將會增加達到diverse的效果,且透過相似度對比,distractor也不會跟原始文章相差太遠從而提升distractor的品質。 若能引入這篇論文,他能增加我們對關鍵句的選擇,若能針對這些關鍵句進行處理將能提升distractor生成的靈活度