2023/09/23開發日誌(RE:二周目第一周)

# 2023/09/23開發日誌(RE:第一周) # 新的階段性目標(共同直播) 因考量到時間和進度，大概沒辦法把讓他玩遊戲的功能做出來，單靠文字和語音的互動，在直播的內容上可能會略顯單調，因此把方向調整成共同直播的形式。 # 目前進度(chatGLM) 經由chatgpt去擷取部分對話，讓他更加具有人性化，知道自己的名字。目前微調缺少大量生活化或是個性化數據集，數據集優化中。各項訓練參數待調整，訓練部分結果導致原語言模型的部分會亂說話。 ![](https://hackmd.io/_uploads/Hk44dBTyp.png) # 目前進度(vits -> bert-vits2) https://github.com/fishaudio/Bert-VITS2 改用新的tts項目bert-vits2，通過bert更好的模擬訓練集的音色，結合新的vits2做tts輸出，使用bert做語意分析調整輸出語氣，效果比原本的vits還要更自然說話更有語氣韻律，且inference的速度更快。原項目github的readme有寫跟沒寫一樣，光是讓他跑起來就花了不少時間，有不少環境問題和程式需要修改，(可以補一些error的圖片) 訓練參數的部分目前batch_size設定為6，Vram占用最大7.7g，使用2080跑一個epoch以我們的數據約在40s~1m左右，訓練速度蠻慢的，之後會試著在國網上部屬。 ![](https://hackmd.io/_uploads/SJWcJJ1ga.png) 已經成功在國網上跑起來，使用v100-32g，batch_size設定24，Vram占用最大29G左右，跑一個epoch約在9s左右，訓練速度大幅上升。 ![](https://hackmd.io/_uploads/B1zgJJJgp.png) ![](https://hackmd.io/_uploads/rkHH1kkep.png) # 目前進度(lived2d) 目前已有一個可以商用的皮，共有做出8個動作表情，不過自動控制的方案還在嘗試，目前進度只有開口的動畫和語音同步。 ![](https://cdn.discordapp.com/attachments/1138778598510182420/1148881304876748840/82af2c9c83fed6f9.png) # 目前問題 chatglm的數據集提升和輸出品質的改進停滯，還沒有想到比較好的方案可以更好的微調，可能會試看看使用全精度的模型，來確定是不是量化之後能力衰退的問題。 bert-vits2模型目前訓練上沒有問題，我們這次用來跑的數據比較少，輸出的成果還可以，但還有提升的空間，在提升數據集的量之後會再跑。 # 待解決的問題許願池: 1. live2d無人可追蹤時的自動控制方案 2. chatGLM輸出品質優化 3. 數據集的提升 # 下周預計推進的進度 - [ ] 1.持續訓練bert-vits2模型 - [ ] 2.尋找live2d的控制方案 - [ ] 3.接入語音識別 - [ ] 4.國網部屬 <style> .blue { color: red; } </style> {%hackmd sMV2zv-CTsuIqnpb0hZLmA %}