--- tags: 會議記錄, Label Sequence --- # 會議記錄 2021/02/04 ## 語意組標註修正 - 與Lars討論後續打包給語意組的文件格式 - 經過1000 sample分類後提到有一些題因為題目敘述有誤需要做文字修改。現行的題目id是利用題目做hash排序,因此有些題目經修改後id會變。 - 若要拆句的格式 - 例: 用'$-$'表示由哪個sid句子拆成數個小句子 - 原句: {123|ID} {1|SID} {道路兩旁共種植100棵樹|題目} - 拆句後: - {123|ID} {1-1|SID} {道路兩旁|題目} - {123|ID} {1-2|SID} {共種植100棵樹|題目} - 若要合句: 用'$\&$'連接表示哪兩個sid句子合併成一個句子 - 例: - 原句: - {123|ID} {1|SID} {道路兩旁|題目} - {123|ID} {2|SID} {共種植100棵樹|題目} - 合句後: {123|ID} =={1&2|SID}== {道路兩旁共種植100棵樹|題目} --- ## 分析新舊方法 - 找例子分析並討論,說明新舊方法的方向一致,但是新方法的樹狀結構整理方式更有條理和系統性。script可以當作判斷物件、人稱等條件控制,讓題目能排除冗句、符合正確的解題方向,此外也有global script處理`每單位量` - **待討論** - 是否有需要標sentence type由粗至細(句子先標\[有],下一步驟再看是人稱還是物件標成\[有_人]、\[有_物])還是都是細的(句子一開始就標成\[有_人]、\[有_物]) - 找範例題目的\[剩下]問句並分析 - 如何把`每單位量`轉變成`有`等conversion機制 - 同樣問句但條件句不同的題目sentence type例子: - > \[A] \[A] \[一共有] \[A] \[B] \[一共有] \[C] \[C] \[一共有] \[C] \[D] \[一共有] - 舊方法(Bottom-up) - ![](https://i.imgur.com/dsBv1XX.png) - 新方法(Top-down) - ![](https://i.imgur.com/50rKcfl.png)