慧娟related work === **資料集** 在實驗中可使用的資料集為CLOTH、MCQ、SCDE和RACE。在CLOTH資料集裡蒐集了由老師出的word-level克漏字題目。MCQ資料集是由網路上各專業領域問題的克漏字資料集所組成的,領域內容包含了自然科學、單字測驗、生活常識和日常小知識。在SCDE資料集中是由選項是sentence-level的多選題題目所組成,且題目的架構類似於學測的文意選填題組,一篇文章會有多個空格,同一篇文章中的題目共用一組干擾選項。在RACE資料集中與SCDE相似都是由sentence-level的干擾選項所組成,但與之不同的是,問題的架構不是克漏字的類型而是閱讀理解的類型。我們的實驗目標為生成word-level的干擾選項,所以我們選用了CLOTH和MCQ來對模型進行訓練和評估 **選項生成** 我們生成選項的方法可以分成兩類,克類字類型干擾選項生成和閱讀理解干擾選項生成。 在克類字類型干擾選項生成中,實驗任務可視為一個填空問題。填空問題第一個步驟通常是從文章或一些知識庫中萃取出干擾選項,第二步是要排序這些選項並當成最後的結果。這種方法的模型通常是用啟發式或自我監督式的方法進行訓練,產生出的克漏字干擾選項主要是word或phrase level。 在閱讀理解干擾選項生成裡,產生出的sentence-level干擾選項主要是針對閱讀測類型的題目,像是抓取一篇文章的摘要或是揣摩作者的意思。通常在產生sentence-level的干擾選項時會使用神經網路的模型。 在這些相關的研究中,實驗[1]與我們的實驗最相關,實驗[1]採用了candidate-and-ranking的策略並且在實驗數據上達到了克漏字干擾選項生成任務的SOTA。在前面提到了我們使用了兩種方法來超越現今的SOTA結果,第一種是使用了cloze gap selection,第二種是我們在candidate-and-ranking架構中使用了神經網路。在我們的實驗數據中,在克漏字干擾選項生成任務中比現今SOTA的成果的P@1分數高了10.58到21.23,為了更清楚的比較,我們在表2.1中總結了各種干擾選項生成的實驗結果。 簡介: 這篇文章的研究目標為生成word-level的干擾選項,採用了CLOTH\cite{xie2017large}和MCQ\cite{ren2021knowledge}來對模型進行訓練與評估,兩個資料集的干擾選項都是由word-level選項所組成的,在CLOTH資料集裡蒐集了由老師出的克漏字題目。MCQ資料集是由網路上各專業領域問題的克漏字資料集所組成的,領域內容包含了自然科學、單字測驗、生活常識和日常小知識。在本篇論文提出的的研究中在candidate-and-ranking的架構下使用了兩種方法來超越現今克漏字干擾選項生成任務的SOTA,第一種是cloze gap selelction,與先前的方法不同的是採用了讓模型決定在文章中要刪除哪個目標字的作法,第二種方法是在生成錯誤選項的部分使用了MLM and Text2Text的預訓練語言模型,經由在candidate-and-ranking架構中加入這兩種做法在最後實驗結果的P@1分數比SOTA\cite{ren2021knowledge}高出了10.58到21.23。