交接問題紀錄

Model

Finetune

Pretrianed

  • 語速增加問題: 客語加速問題已解決 (使用 streaming)
  • 印尼語語速以及流暢度
  • 英文語者語速問題 (除了英文以外都過快)
    • 考慮到訓練時英文語者原本語速就很快,可以考慮以下方法:
      • 以一個語者為標準 ( 如台語語者 ),合成一段 utterance,以 秒數/音素 算出一秒多少音素,以此為基準,記做
        dur1
      • 再來對英文語者做同樣的事情,以 秒數/音素 算出一秒多少音素,記做
        dur2
        • dur1
          /
          dur2
          來算出修正 inference 速率比例
  • 如果 CTL 出現標音錯誤或者需要修正,需要去哪裡更改?
    • 例子:
      • 我想泡麵
      • [['uoo12', 'sc1', 'iang13', 'tsc1', 'i12', 'ph1', 'au14', 'm1', 'ieen14']]
      • 這裡吃發成雞

Finetune

  • 兩者 F0 即便差值小,但合成出來有可能效果不如差值大的 ( e.g. 差值第二名 ),這種時候是不是只能人工聽而已 ?
  • 加入 mfcc 作為評斷標準後,仍然會出現上述情況
  • Finetune 後有出現 duration 不穩的情況是否代表 over fitting 需要降低 iteration 數 ?
  • 如果怎麼試都不像該怎麼辦 ?
  • 幾句夠 ? 一次 finetune 一人是否最為準確 ?