# Junior Chinese QA-pair Cleaning ## 1 檢查exam_title & scope ![image](https://hackmd.io/_uploads/r1uoXPIUJg.png) 下圖中藍框圍exam_title,粉紅框為exam_scope(沒有範圍就空白即可) ![image](https://hackmd.io/_uploads/H1TG4v8U1l.png) ## 2 刪除非單選試題(紅框) 可參考黃框的大題號,基本上只要保留該試卷單選那大題 (section_number, question_number僅資料清理參考用,若有錯不需要處理) ![image](https://hackmd.io/_uploads/SyktEvIIkl.png) ## 3 填入answer 試卷答案通常在pdf最下方,請==依照題號==填入(若有缺漏題目跳題的狀況就需要對一下) ## 4 刪除抓不到上下文的題目 有以下三種類型 1. 閱讀內容在題號上方 ![image](https://hackmd.io/_uploads/Hy3V8vL8Jg.png) 2. 題目含圖片 ![image](https://hackmd.io/_uploads/rky7hcU8yg.png) 3. 含表格 ![image](https://hackmd.io/_uploads/rkJuLDUL1e.png) :::info 1. 若CSV檔甚麼都沒抓到,直接整份留白即可 2. 遇到特例可以紀錄一下,最後給我EXAM_ID,感謝大家 :::