# gpt-sovits ## 參數調整 * 資料集最少5分鐘 ## 模型訓練 ### 音頻切割 * min_length:根据显存大小调整,显存越小,值调得越小。 * min_interval:根据音频的平均间隔进行调整。如果音频过于密集,可以适当降低该值。 * max_sil_kept:此参数会影响句子的连贯性,不同音频需不同调整。如果不确定,建议保持默认值 ### 打標 * 达摩ASR:专用于**中文**识别,效果最佳。 * Fast Whisper:支持99种语言,尤其在**英语和日语**的识别方面表现突出。建议选择**large V3**模型,语种选择自动(auto)即可。 * 一句話裡面只能有一種語言 ### 微調訓練 * VITS(文字生語音) 模型的轮数可以设置得高一些,因为训练速度较快 * GPT(結合gpt協調) 模型,通常建议设置轮数为10,不要超过20,以确保训练效率和模型性能的平衡。 * 素材中有底噪、混响、喷麦、响度不统一、电流声、口水音、口齿不清、音质差等情况那么请不要调高SoVITS模型轮数,否则会有负面效果。 ## 推理 * 低輪次的聲音會更像,高輪次的語氣較好 * 漏讀情況可往低輪次 * 开头漏字,试试在最开头加一个句号 * 参考音频非常重要,它会影响模型学习语速和语气,请认真选择 ### 中英推理 ### 少字情況 * 開頭吞字:https://github.com/RVC-Boss/GPT-SoVITS/issues/70 * [重复念、漏念](https://github.com/RVC-Boss/GPT-SoVITS/issues/1644) * 降低轮数 * 加长合成文本(我是从一句话加到两句话) * 改种子(至少我发现种子也能影响这些问题) ### 英文[重輕音明顯或錯誤] * 在一開始匯入音檔時,模型選擇HP5_only_main_vocal,導出檔格式選擇wav * 在微調訓練,總輪數填16。 * 模型切换裡,模型列表盡量選中或高,效果最佳。上傳兩個參考音檔,主要參考的聲音檔案在前,後面的音檔要無雜音,講話語氣穩定的wav檔,可用此連結生成後面音檔(https://www.vanillavoice.com/?_trms=bd3adcbb389cde15.1730699815642) * top_k數值調整(37數值佳)可上下調整 ## 參考 * 官方指南:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4 * https://www.bilibili.com/read/cv33776891/ * https://www.cnblogs.com/smartloli/p/18440825 * API:https://juejin.cn/post/7343138052973297702 # 語音唱歌 * https://github.com/espnet/espnet * https://github.com/MoonInTheRiver/DiffSinger * https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers * https://github.com/openvpi/DiffSinger * https://github.com/stakira/OpenUtau *