# 高等資料探勘與巨量資料分析 作業二:Word2Vec ![](https://i.imgur.com/yz55YNk.png) ---- ![](https://i.imgur.com/XCnJZ2Q.png) ## Word2Vec作業繳交說明 #### 需求: 給定一字詞 W,請回傳在上述資料集(https://drive.google.com/file/d/1nlT3GegYaOM02G4WAqFe--nuFSHbDn5X/view?usp=sharing)中與W的word embedding最接近的前10個詞 * 網站已上線提供測試- 評分網站: https://admbda.nlpnchu.org/scoring/ * 下周上課會公布正式20題,一題5分,回傳的前十名與標準答案有5個以上重疊即拿到分數。 * 題目範例:['臺灣','美國'] * 答案範例 : [["日本", "香港", "中國大陸", "分佈", "中國", "中華民國", "日治", "臺北市", "名稱", "臺北"],["非建制地區", "城市", "人口普查", "加拿大", "英國", "地區", "加利福尼亞州", "國家", "伊利諾伊州", "公司"]] ----- * 評分網站: https://admbda.nlpnchu.org/scoring/ * 測試用題目:['臺灣', '美國', '大學', '肺炎','天安門','歌手','中國','蔡英文','立法院','颱風'] * 參考答案: testCase_answer.json https://github.com/NCHU-NLP-Lab/110_Advanced-Data-Mining-and-Big-Data-Analysis/blob/main/KCM/testCase_answer.json #### 繳交答案網站使用說明 * 此次作業為前置作業 故無分數 但需要會Word2Vec才做得出來下一個作業 答案請使用規定之JSON格式,例如:題目兩題各回傳關聯度最高的前兩名,格式應為 [["第一題第一名關鍵字", "第一題第二名關鍵字"],["第二題第一名關鍵字","第二題第二名關鍵字"]] #### 可參考資源 * 套件使用方法: https://radimrehurek.com/gensim/models/word2vec.html * 理論講解 :https://www.youtube.com/watch?v=X7PH3NuYW0Q