# FAQ - pre-process: chatGPT進行資料擴增 - Fine-tune pre-trained encoder (讓word vector更收斂於資料集的分布、可輸入多種語言) - 將 word vector 丟進模型進行分類 (所有問題各代表一個class) - 透過使用者回饋資訊有用程度訓練 RL ![](https://hackmd.io/_uploads/ryc0KmIV3.png) --- - [Question-Pairs-Dataset](https://www.kaggle.com/datasets/quora/question-pairs-dataset) - ![](https://hackmd.io/_uploads/HJ1RWVLE2.png) - 是否能先給部份的資料集 ## 5/8 QA - chatGPT or NLP進行資料擴增 - GPT-2作為`encoder`使用 - 以 `Question-Pairs-Dataset` fine-tune `encoder` - 以 FAQ 為關鍵字找相關 dataset (Multi-question2Answer) ## 5/22 - Install cdQA - Python Version : 3.7 - cdQA requirements -> torch版本變更 ![](https://hackmd.io/_uploads/Byw5X5_Sn.png) - 如果執行此block時出現錯誤,進入紅框內的檔案 ![](https://hackmd.io/_uploads/HkL_NcuHn.png) - 將檔案第239行修正成如下 ![](https://hackmd.io/_uploads/H1VwS9uS2.png) - 存檔後回到ipynb,重開kernel即可運行 ![](https://hackmd.io/_uploads/HyzJUquH2.png)