Unsupervised multiple-choice question generation for out-of-domain Q&A fine-tuning === 先由人工給定一個主題,程式使用該主題名稱的維基百科頁面作為起始點(例如人工給定"體育",就去搜尋體育的維基百科),遞迴搜尋子條目(遞迴深度為4),保留每日超過800人觀看的文章並取出文章的第一段擷取摘要,由此產生非常多的句子。並將這些句子依單純英文文法規則生成簡單5W問句與答案,例如who問句是將第一個動詞前的名詞作為正確答案並從句子中移除,what問句是將第一個夾在動詞間的名詞移除作為正確答案並從句子中移除,移除答案後的句子再帶入問題模板生成制式問句。生出五種問句後再依英文文法的詞與詞的相關性去決定哪個問句最適合。 在干擾選項生成的部分,先隨機選取其他句子所產生的答案,由RoBERTa去rank與問題的相關性,取前三高當成distractor。 由此方法能只給定任何一個主題,就能生成許該領域的多選題的訓練資料來fine-tune UnifiedQA(base model)。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up