# PLM py
修正型 PLM 演算法可視為一個韻律標記過程,並同時更新模型參數。在給定語料庫之韻
律聲學特徵參數集合 A、相對應的語言參數集合 L 及語速 SR 之下,找出一組最佳韻律標記集
合 T,整個過程可以看成一參數最徍化問題
$T^∗=arg \underset{T}{max} P(T|A,L,SR)=arg \underset{T}{max} P(T,A|L,SR)$
(因為事件T在T和A的聯集內,所以可以等號過去右邊,而這樣做可以方便在後續操作分解這個大模型)
T={B,PS},包含此PLM演算法的輸出break停頓標記和prosodic state韻律狀態標記
A為韻律參數,包括從前次報告中NormAdp及FeaNorm步驟得出的各項對語速正規化後參數,所以可假設A和語速SR為獨立關係。
L為語言參數集合

由條件機率,$P(A|B)=P(A,B)/P(B)$
$P(A,T|L,SR)=P(A|T,L,SR)P(T|L,SR)$
由A和語速SR為獨立,上式改為$P(A|T,L)P(T|L,SR)$
將各大項展開為$P(X,Y,Z|B,PS,L)P(B,PS|L,SR)$
$=P(X|B,PS,L)P(Y,Z|X,B,PS,L)P(PS|B,L,SR)P(B|L,SR)$
又{Y,Z}與停頓標記B有關聯,與韻律狀態PS較無關;X與PS有關聯,與B較無關
$\approx P(X|B,PS,L)P(Y,Z|B,L)P(PS|B,L,SR)P(B|L,SR)$
又以基頻韻律狀態p,扣除聲調和連音的影響因素,音長或能量韻律狀態{q,r}則扣除聲調、基本音節類型或韻母類型等影響
$\approx P(X|B,PS,L)P(Y,Z|B,L)P(PS|B,SR)P(B|L,SR)$
至此形成四種韻律狀態模型,依序為音節韻律模型、停頓聲學模型、修正型韻律狀態模型、修正型停頓語法模型,用以找出最佳化的韻律標記集合$T^*$
## A-PLM
adaptive PLM是以過去實驗結果的priors去歸納出一個較符合過去實驗結果機率的model,可以看成在PLM上外掛一個穩定的pre-train probability
$\lambda ^*,T^*=arg \underset{\lambda,T}{max} P(A,T|L,SR,\lambda )P(\lambda )$
在實作上因為有過去prior影響,會比PLM較為穩定(robust),在實驗結果可能也會較為收斂
## 訓練步驟
step1:Set the prior probabilities of the five submodels of the dialect SR-HPM to be the parameters of the Mandarin SR-HPM or to be synthesized by the properties of cross-dialect similarities.
step2:由停頓聲學模型和修正型停頓語法模型初始化Break標記
$B^*=arg \underset{B}{max}P(Y,Z|B,L,\lambda_{YZ})P(B|L,SR,\lambda_{B})$
step3:有了step1的$B^*$,由音節韻律模型、修正型韻律狀態模型找最佳化韻律狀態標記
$PS^*=arg \underset{PS}{max}P(X|B^*,PS,L,\lambda_{X})P(PS|B^*,SR,\lambda_{PS})$
step4:做最大後驗機率估計(即考慮各參數在模型中的概率分布)

step5:進行viterbi search 找出最佳化的停頓標記序列
step6:如果收斂則進行step7,未收斂則於step3開始重複做,並更新$B,PS,\lambda$
step7:Adapt the prosodic state-syntax submodels $\lambda_{PL}$
