7月9日meeting minutes === :::info - **Location:** Google Meet - **Date:** Jul 9, 2022 9:00 PM - **流程** 1. 學弟匯報他們在這兩周(25/6-9/7)的進度 `30min` 2. 下次Meeting時間:2022/07/23 9:00 p.m ::: ## 下次Meeting可能的流程 1. 可能要報一下BERT這篇論文 * 因爲突然收到又收了2個專題生,實驗室的博後也想聽一下我們如何開會 * 所以你們可能預備個投影片,把BERT如何進行預訓練,如何進行Fine-tune報告一下應該就好了 * P.S:看NTU那邊的Self-attention,Transformer和BERT應該就能報了(因爲BERT是依照以上的流程而誕生的) * https://www.youtube.com/watch?v=Ye018rCVvOo&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J&ab_channel=Hung-yiLee * 如果這樣還不夠30分鐘的話,你們可能回答我在意見這個Section所提到的一些問題就好了 ## 意見(王) <!-- Other important details discussed during the meeting can be entered here. --> 1. 在講什麽時候進行Transfer Learning之前,可以講一下Transfer Learning的定義,以及有沒有Transfer Learning比較著名的例子/模型。 2. Fine-tune比較準確的定義:把自己的資料放到別人已經弄好的模型裏再進行訓練(Retraining a pre-trained language model using your own data) ## 意見(沈) 1. 句子分類器那邊的套件還蠻常用的。 2. 至於如何把資料變得和BERT相容,BERT的論文裏的圖片有提到如何進行F和參考別人寫的Code ## 意見(楊) 1. 跟沈研究的東西蠻像的,你看的Github裏的資料都是偏向如何處理英文文本。 2. 使用Stop word來把一些慣用語(a,the)刪掉,而Stop word的取得方式主要有2種:套件自帶或直接從網上拿。 3. 使用Regex(正規表達式)來把爬蟲所得的内容進行清洗。 4. 至於Lemmatization(詞性還原)的意思是:我們去掉單詞的詞缀,只保留詞語的主要部分(例如:Cars在進行Lemmatization後的結果為Car) 5. 其他的預處理方法你去Google,應該都會有人寫好答案 ## 意見(章) 1. 有看到你有閲讀過BERT的論文,你可能可以把你讀到什麽跟其他人分享,把它變成兩個禮拜之後的開會投影片(?) ## 更多的Reference網站 * 因爲你們有提到如何找到更多Source * 1-3主要為課程,4主要是練習 1. https://www.youtube.com/watch?v=Ye018rCVvOo&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J&ab_channel=Hung-yiLee 2. https://www.youtube.com/watch?v=Yd7R3JIFvnY&list=PLOAQYZPRn2V5_9qzD7_1TzADthNSBf8_z&ab_channel=VivianNTUMiuLab 3. https://web.stanford.edu/class/cs224n/index.html#schedule 4. https://github.com/nndl/exercise