[論文筆記] Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（Part I）

# [論文筆記] Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（Part I） ###### tags: `Voice` ## TTS 架構提出一個 TTS 的 neural network-based system，可以生成多個 speaker 的語音（train 時候沒見過的 Speaker ） ![](https://i.imgur.com/92nAAZN.png =480x) ![](https://i.imgur.com/CmPMc4X.png =650x) 1. 可以把模型看成三個部分組成，小紫和小紅一起完成了 TTS 的任務 1. all models can be trained separately and on distinct datasets. 1. 經過 pretrained 的 Speaker Encoder，可以訓練 Synthesizer 以直接預測 target audio 的 mel spectrogram（梅爾頻譜圖） * Speaker Encoder（小綠） * Input：接收到 Speaker 的音頻 * Output： * 捕捉 input 中 Speaker 的音色，為任意的 unseen speaker 生成對應的 speaker embedding（Speaker ==音色的向量==） * meaningful representation of the voice of the speaker. * Synthesizer（小紫） * 一個基於 Tactron2 的 Seq2seq Synthesis Net：在 Speaker embedding 的基礎上從 text（輸入一句話）生成 mel spectrogram（梅爾頻譜） * Assuming a pretrained encoder, the synthesizer can be trained to directly predict the mel spectrograms of the target audio * Input：Speaker embedding（Speaker Encoder）＋phoneme * Output：mel spectrogram（梅爾頻譜） ![](https://i.imgur.com/q51SSOp.png =550x) * Vocoder（小紅）：auto-regressive WaveNet-based * 可以將 mel spectrogram（梅爾頻譜）轉成 Time domain waveform samples（時域訊號＝我們將要聽到的聲音） Single speaker TTS 的表現優異，Multi-speaker TTS 自然就是一個接下來需要解決的問題，是指生成多個不同 Speaker 聲音的語音的任務我們證明了 speaker variability 訊息（從 Discriminatively-trained 的 speaker encoder 網路中學到的）可以轉換到的 Multispeaker TTS 任務中，並且可以==合成訓練時 unseen 的 Speaker 語音==。 ``` 最後，我們證明了隨機 sample 的 speaker embeddings 可以 **synthesize speech**（生成和 training 時不一樣的新 Speaker 語音），說明模型已經學到 high quality 的 Speaker 特徵。 ``` --- ## Speaker Encoder ![](https://i.imgur.com/LqhtUAq.png) $e_{j,i}$：第 $j$ 個 Speaker 的第 $i$ 個embedding，每個 Speaker 有 M 條 embedding（utterance 話語） $c_j$：第 $j$ 個 Speaker 的 centroid（中心向量），$c_j=\frac{1}{M}\sum^{M}_{m=1}e_{jm}$ $S_{ji,k}$：$e_{j,i}$ 和 $c_k$ 的相似度，我們定義 $S$ 為相似矩陣。$S_{ji,k}=w · cos(e_{j,i}, c_k) + b$ $x_{ji}$（$1\leq j\leq N$, $1\leq i\leq M$)：特徵向量，從第 $j$ 個 Speaker 的 embedding $i$ 中提取的特徵。 ![](https://i.imgur.com/hl8hrcs.png =450x) 希望同個 Speaker 說的所有話能夠聚類到一起，而又和其他 Speaker 說的話分隔的足夠遠 = 希望每個話語的 embedding 與該 Speaker 的 centroid 相似，同時遠離其他 Speaker 的 centroid = 希望彩色區域的相似值較大，而灰色區域的相似值較小 * Loss 公式 * Softmax：$L(e_{ji})=S_{ji,j}-\log \sum_{k=1}^Nexp(S_{ji,k})$ * Contrast：$L(e_{ji})= {1-{\sigma (S_{ji,k}})+\max\limits_{\substack{1\leq k\leq N \\k\neq j}}\sigma (S_{ji,k}})$ ![](https://i.imgur.com/OkSnMUu.png =300x)　![](https://i.imgur.com/YCIXviO.png =300x) ## 參考資料 :::success ### Generalized end-to-end loss for speaker verification paper：https://arxiv.org/pdf/1710.10467v1.pdf 1. 論文翻譯：Generalized end-to-end loss for speaker verification https://www.cnblogs.com/LXP-Never/p/11799985.html 2. <解析>speaker verification模型中的GE2E損失函數 https://www.cnblogs.com/dynmi/p/13343455.html 3. GE2E說話人識別論文筆記 https://twgreatdaily.com/zh-cn/obJ9g3ABjYh_GJGVG_qx.html ### Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis paper：https://arxiv.org/pdf/1806.04558.pdf 1. SV2TTS（Real-Time-Voice-Cloning）論文簡介及中文復現 https://zhuanlan.zhihu.com/p/112627134 :::