PLM py - HackMD

# PLM py 修正型 PLM 演算法可視為一個韻律標記過程，並同時更新模型參數。在給定語料庫之韻律聲學特徵參數集合 A、相對應的語言參數集合 L 及語速 SR 之下，找出一組最佳韻律標記集合 T，整個過程可以看成一參數最徍化問題 $T^∗=arg \underset{T}{max} P(T|A,L,SR)=arg \underset{T}{max} P(T,A|L,SR)$ (因為事件T在T和A的聯集內，所以可以等號過去右邊，而這樣做可以方便在後續操作分解這個大模型) T={B,PS}，包含此PLM演算法的輸出break停頓標記和prosodic state韻律狀態標記 A為韻律參數，包括從前次報告中NormAdp及FeaNorm步驟得出的各項對語速正規化後參數，所以可假設A和語速SR為獨立關係。 L為語言參數集合 ![](https://i.imgur.com/WT3J3eq.png) 由條件機率，$P(A|B)=P(A,B)/P(B)$ $P(A,T|L,SR)=P(A|T,L,SR)P(T|L,SR)$ 由A和語速SR為獨立，上式改為$P(A|T,L)P(T|L,SR)$ 將各大項展開為$P(X,Y,Z|B,PS,L)P(B,PS|L,SR)$ $=P(X|B,PS,L)P(Y,Z|X,B,PS,L)P(PS|B,L,SR)P(B|L,SR)$ 又{Y,Z}與停頓標記B有關聯，與韻律狀態PS較無關；X與PS有關聯，與B較無關 $\approx P(X|B,PS,L)P(Y,Z|B,L)P(PS|B,L,SR)P(B|L,SR)$ 又以基頻韻律狀態p，扣除聲調和連音的影響因素，音長或能量韻律狀態{q,r}則扣除聲調、基本音節類型或韻母類型等影響 $\approx P(X|B,PS,L)P(Y,Z|B,L)P(PS|B,SR)P(B|L,SR)$ 至此形成四種韻律狀態模型，依序為音節韻律模型、停頓聲學模型、修正型韻律狀態模型、修正型停頓語法模型，用以找出最佳化的韻律標記集合$T^*$ ## A-PLM adaptive PLM是以過去實驗結果的priors去歸納出一個較符合過去實驗結果機率的model，可以看成在PLM上外掛一個穩定的pre-train probability $\lambda ^*,T^*=arg \underset{\lambda,T}{max} P(A,T|L,SR,\lambda )P(\lambda )$ 在實作上因為有過去prior影響，會比PLM較為穩定(robust)，在實驗結果可能也會較為收斂 ## 訓練步驟 step1:Set the prior probabilities of the five submodels of the dialect SR-HPM to be the parameters of the Mandarin SR-HPM or to be synthesized by the properties of cross-dialect similarities. step2:由停頓聲學模型和修正型停頓語法模型初始化Break標記 $B^*=arg \underset{B}{max}P(Y,Z|B,L,\lambda_{YZ})P(B|L,SR,\lambda_{B})$ step3:有了step1的$B^*$，由音節韻律模型、修正型韻律狀態模型找最佳化韻律狀態標記 $PS^*=arg \underset{PS}{max}P(X|B^*,PS,L,\lambda_{X})P(PS|B^*,SR,\lambda_{PS})$ step4:做最大後驗機率估計(即考慮各參數在模型中的概率分布) ![](https://i.imgur.com/WuzdyB5.png) step5:進行viterbi search 找出最佳化的停頓標記序列 step6:如果收斂則進行step7，未收斂則於step3開始重複做，並更新$B,PS,\lambda$ step7:Adapt the prosodic state-syntax submodels $\lambda_{PL}$ ![](https://i.imgur.com/0GIcSyG.png)