2023/04/21開發日誌(第一周)

# 2023/04/21開發日誌(第一周) # 目前進度(語言模型) 當前使用ChatGLM-6B作為語言模型 https://github.com/THUDM/ChatGLM-6B https://huggingface.co/THUDM/chatglm-6b-int4 目前使用int4量化之後的模型，推理要求VRAM下降到6G，已經能夠在個人設備上使用，但在1060 6G的顯卡上運行回應速度較慢，不足以完成迅速流暢的對話，且微調模型的要求為8G的VRAM，除了跟老師借的2080以外，<span class="blue">其他人的設備皆不達要求，目前有設備問題要解決。</span> 在1660 6G上運行推理，速度已提升到能流暢對話的等級，但隨著對話數增加，VRAM的使用量會逐漸提升，最後爆顯存停止運行，或許有優化的可能性。在2080 8G上運行推理，速度已提升到能流暢對話的等級,隨著對話數增加，VRAM的使用量是6.3G,所以在可以使用並且長時間使用也沒有問題. 由於該模型為北京清華大學訓練，data都是中國的資料，因此輸出的回應會是中國的用語和簡體字，和台灣的有點差別，尚不確定能否通過微調訓練改變，但可以預期如果可以需要相當的資料量。 ![](https://i.imgur.com/zGxvh3I.png) # 目前進度(tts模型) tts是使用python內建的pyttsx3 透過輸入對話內容進行回答，可以輸入 "clear" 清空對話歷史，輸入 "stop" 終止程式。程式已經可以語音回覆。在每次生成新的回答後進行語音回覆，程式會記錄歷史對話內容，並在確認輸出結束才會發出聲音。可以抓取twitch聊天室的內容，讓ai對聊天室進行回覆。目前使用pyttsx3雖已有辦法語音輸出但語音的品質距離我們想要的效果還也很大一段距離，想要高品質應該還是離不開訓練模型，還要尋找其他適合的tts模型。 ![](https://i.imgur.com/FMuPoTS.png) # 目前進度(live2d模型) 目前使用live2d的軟體去做一個皮，並使用VTS讓live2d模型可以動。在VTS可以只用滑鼠音量音頻等等限制讓模型可以動。在OBS中，可以只擷取VTS視窗的聲音，來實現AI語音跟嘴型隊上的問題。另外還使用了VAC，只取電腦內部的所有聲音。 # 待解決的問題~~許願池~~: <span class="blue"> 1. 設備問題需要至少8G顯存的顯卡 2. 需要解決中國用語問題 3. 需要準備訓練資料 </span> --- # 模型失敗放棄區: 1. OpenChatKit 實際使用之後發現他因為基於GPT-NeoX 20B，模型太大光是推理在int8的量化下，最低顯存需求也要24G，使用CPU推理的時間一句話35分鐘，受限於硬體限制放棄使用。 ![](https://i.imgur.com/JZW5u3Z.png) 2. GPT-NeoX 20B 一樣模型太大且且模型本身不是專注在聊天對話，受限於硬體無法微調也不實際，放棄使用。 # 下周預計推進的進度 - [ ] 1.嘗試微調ChatGLM - [ ] 2.尋找合適的tts - [ ] 3.把twitch.message和chatGLM分開 - [ ] 4.開始處理2d live形象 - [ ] 5.製造訓練chatGLM的資料 <style> .blue { color: red; } </style> {%hackmd sMV2zv-CTsuIqnpb0hZLmA %}