藉由fine-tuning deep LMs能夠使NLU中的IR快速發展,雖然效果很好,但這些基於LMs的ranking models比以往的方法增加了好幾個量級的計算成本,特別是在計算每個query與document間的relevance score時。
本篇論文作者提出了ColBERT,引入late interaction架構,對query與document進行獨立的encoding,再以低成本且強大的interaction step來模擬他們的fine-grained similarity。同時在document的處理也獲得了離線預計算的好處。
有別於過往的是非題,將文章中原始句子作為True的問句並通過反義詞替換關鍵字生成False問句,本篇作者通過使用一種新穎的masking-and-infilling策略來生成更靈活與複雜的問句。要被mask的關鍵字找法有很多種,像是SRL結果中的predicate,句子中連接詞("that"、"when"、"since")之後的部分或是數字等等,來找出值得提問的句子。Infilling的作法則是以BART為基底作為生成模型,將原始句子的關鍵字mask後,提供前後句子作為BART的上下文後產生句子填入。
作者為了找值得提問的句子所提出的方法亦可用來作為多選題產生題目的答案選擇方法,而infilling的想法如果使用得宜,在提供出題範圍的前後文後,也能將欲出題句子挖空讓BART模型填補後產生選項。