# 2023/09/23開發日誌(RE:第一周) # 新的階段性目標(共同直播) 因考量到時間和進度,大概沒辦法把讓他玩遊戲的功能做出來,單靠文字和語音的互動,在直播的內容上可能會略顯單調,因此把方向調整成共同直播的形式。 # 目前進度(chatGLM) 經由chatgpt去擷取部分對話,讓他更加具有人性化,知道自己的名字。 目前微調缺少大量生活化或是個性化數據集,數據集優化中。 各項訓練參數待調整,訓練部分結果導致原語言模型的部分會亂說話。  # 目前進度(vits -> bert-vits2) https://github.com/fishaudio/Bert-VITS2 改用新的tts項目bert-vits2,通過bert更好的模擬訓練集的音色,結合新的vits2做tts輸出,使用bert做語意分析調整輸出語氣,效果比原本的vits還要更自然說話更有語氣韻律,且inference的速度更快。 原項目github的readme有寫跟沒寫一樣,光是讓他跑起來就花了不少時間,有不少環境問題和程式需要修改,(可以補一些error的圖片) 訓練參數的部分 目前batch_size設定為6,Vram占用最大7.7g,使用2080跑一個epoch以我們的數據約在40s~1m左右,訓練速度蠻慢的,之後會試著在國網上部屬。  已經成功在國網上跑起來,使用v100-32g,batch_size設定24,Vram占用最大29G左右,跑一個epoch約在9s左右,訓練速度大幅上升。   # 目前進度(lived2d) 目前已有一個可以商用的皮,共有做出8個動作表情,不過自動控制的方案還在嘗試,目前進度只有開口的動畫和語音同步。  # 目前問題 chatglm的數據集提升和輸出品質的改進停滯,還沒有想到比較好的方案可以更好的微調,可能會試看看使用全精度的模型,來確定是不是量化之後能力衰退的問題。 bert-vits2模型目前訓練上沒有問題,我們這次用來跑的數據比較少,輸出的成果還可以,但還有提升的空間,在提升數據集的量之後會再跑。 # 待解決的問題許願池: 1. live2d無人可追蹤時的自動控制方案 2. chatGLM輸出品質優化 3. 數據集的提升 # 下周預計推進的進度 - [ ] 1.持續訓練bert-vits2模型 - [ ] 2.尋找live2d的控制方案 - [ ] 3.接入語音識別 - [ ] 4.國網部屬 <style> .blue { color: red; } </style> {%hackmd sMV2zv-CTsuIqnpb0hZLmA %}
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up