--- title: 2020/10/16 NLP Lab Meeting tags: meeting --- ### 2020/10/16 NLP Lab Meeting 2pm~3.50pm --- * Jacky GEC: remove false negative in data 進度: 做完資料前處理 下一步: 訓練s2s model,預計使用transformer 加入正常句子防止model的false positive,預計使用one billion word corpus GEC: parsing tree embedding and KNN 從已知正確的句子改不正確的句子 作GEC的時候應該做parsing的動作(文法結構是重要的) 由phrase對到embedding 下一步: 更改diora,訓練時把embedding的距離加入loss 另外設計改錯的模型 * Sappy GEC 問題一: NMT太慢 label方式glue分數較NMT方式低 用透過只生成錯誤的span來提昇NMT速度,達到較高的glue分數 問題二: 目前的GEC比較不會換動詞 當前f1 score大概都在50%下 希望用self learning來改善 目前預想的model架構(圖) * Jamie 錯誤類型解釋:類似Longman Dictionary of Common Errors 輸入原句跟被改過的句子做錯誤類型分類 錯誤類型有: content error: dictionary definition pattern error: cobuild others 目前正在作pattern error的解釋 作法: parsing是用spacy 運用prep,aux找parent和children 視為一個span,去對collins的pattern * Winnie 機器翻譯 用Collins文法規則查片語(Linggle, bert-large-uncased), 片語送機器翻譯(Google Translate), 拿到中文的翻譯資料(翻回英文), 接著做反向機器翻譯,蒐集資料集,最後再做正向機器翻譯 還在資料整理的階段 * CY 老師叫我講昨天討論的東西:WSD 以stock為例子,可以代表存貨、股票 將含有stock的句子丟到bert 把stock這個token mask起來 找到其他可能的字 拿來去幫stock作WSD 用cambridge的definition做lesk 可能的future work:再從cambridge例句去挖空 * Yizzy 昨天跟老師討論的內容,TODO: skip-ngram (learn chopsticks-> learn * chopsticks) 還在消化老師給的東西 * Isaac 系統: linggle有新版了 舊版新增的東西: 新增提示,右邊還有group可以看——來自Collins Cobuild的grammar pattern(available by n -> AVAILABLE、available for n -> READY) 新版linggle有新介面(圖),大概是暑假工作坊左右寫出來的 目前功能跟舊版linggle一樣,後續會把linggle系列的東西加進來 搜尋紀錄有些bug要再修,可能前端render太多次 研究: 給一個Noun的grammar pattern available by N,看N是什麼意思(屬於什麼group) 將pattern轉成linggle query,送到linggle 把出來的結果後面的N丟到WN看synset 拿這些分類來統計N是什麼category yizzy正在把linggle的dataset從web1t換成wiki看看 因為web1t parse出來好像不太好 * 岱儒 在讀很多paper 用wiki作wsd * Elmon 介紹實驗室系統: Linggle Linggle Booster(有extension了哦,如何設計quiz請大家想想看) Lingglewrite Levelup Linggle read(改版後的linggle booster): 需要人手,請找Joanna * 新增NLP lab網頁的card
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up