## 介紹 sequence-to-sequence(Seq2Seq) 輸入是多個向量序列,輸出也是多個向量序列,輸出的向量數量由機器決定,例如語音辨識、機器翻譯、語音翻譯、語音合成、聊天機器人、QA、文法剖析、Multi-lable classification(分類)、物件偵測等,Seq2Seq 能夠應用的範圍相當廣泛。 在 Seq2Seq2 的模型中,使用到的方式就是 Encoder 以及 Decoder,將 input sequence 丟進 Encoder 中,再將資訊傳給 Decoder 並由機器決定 output sequence,而本文章主角 Transformer 的技術中同樣有用到 Encoder 以及 Decoder,並且會探討兩者間是如何傳遞資訊的。  ## 解析 Encoder 在 Encoder 中,輸入為一組(n 維)向量而輸出也是一組(n 維)向量,那該如何計算這組(n 維)輸出向量呢?在 Transformer 中的 Encoder,先輸入一排向量至 self-attention,得到粉紅色向量後再加上原本的藍色向量,此步驟稱為 Residual,接著丟入 Layer Norm,對同一個 feature 但不同 dimension 進行標準化,得到綠色向量(右半邊接續),經過 FC(Fully Connected)得到棕色向量再加上原本的綠色向量,沒錯再做一次 Residual,得到桃色向量,再經過 Layer Norm 得到紫色向量,即完成 Transformer 之 Encoder 負責的工作。 :::info 比較 Batch normalization 與 Layer normalization 1. Batch normalization 不同的 Training sample 但同一個 dimension 進行數值標準化。 2. Layer normalization 同一個 Training sample 但不同的 dimension 進行數值標準化。  ::: Positional Encoding 加上位置資訊,Add & Norm 即為 Residual + Layer Norm,Feed Forward 即為 FC(Fully Connected),而 Multi-head attention 的介紹在「[自注意力機制(Self-attention)](https://hackmd.io/@lcaMuWOwR1Ox5o5yeTEupA/HyxuCj-rC)」的文章中,最後 Encoder 中的這些順序是可以做調換的,不一定按照上述的流程作計算。  ## 解析 Decoder ### Autoregressive(AT) 將 Encoder 的資訊傳遞至 Decoder 中,若要開始產生輸出,需要先輸入一個 START 向量可以將其視為一個 Special token,代表正式開始,接著丟入 Decoder 得到一個機率分布,而該分布的長度為所有方塊字的數量,例如常用的方塊字有 3000 個,它的長度就有 3000 個方塊字,並且找出對應到最大數值的方塊字,即輸出該方塊字,以此類推,在最後輸出「息」並將「息」當作輸入丟進 Decoder 時,預期它會產生 End 一樣可視為一個 Special token,即結束 Decoder 輸出的動作。 可以發現在 Transformer 中 Decoder 與 Encoder 架構有一個不同之處在於 Masked Multi-Head Attention,由於 AT 的方法是前一個輸出結束後再產生下一個輸出,並且在輸出 b¹ 只會看 a¹ 的輸入,在輸出 b² 只會看 a¹、a² 的輸入,不會看到後面的 Input vector sequence,因此稱為 Masked Multi-Head Attention,此與一般的 self-attention 機制有所不同。  ### Nonautoregressive(NAT) 與 AT 最大的不同在於,Input vector sequence 全部都是 BEGIN(或是 START)的 Special token,也能夠想像成丟入這些代表開始的 token 後,輸出將可以一次產生,而不用等上一個輸出結束後才能輸出下一個,具有平行運算的能力。 那如何控制輸出的長度呢?Seq2Seq 就是給機器自行決定輸出長度,在 NAT 中,能使用一個預測輸出長度的 classifier 來決定,另外,若看到 End 的 token,後面所有的輸出皆可忽略。  :::info AT v.s. NAT NAT 的優勢在於具有平行運算的能力,也就是說完成輸出所需時間較短,甚至能夠預測輸出長度,這是在 LSTM、GRU 等 RNN 模型架構後近期備受矚目的技術,但 AT 的表現仍比 NAT 來的好,NAT 需要花大量的資源調整才能接近 AT 的模型表現。 ::: ## Encoder 資訊該如何傳進 Decoder 中呢? ### Cross-attention 可以看到 Encoder 最後的輸出結果會再傳至 Decoder 中,用兩個藍色圈圈標記的地方,以及一個綠色圈圈是來自 Decoder 的 Masked Multi-Head attention 輸出,乘上對應的矩陣生成 q 向量,而 Encoder 的輸出 a¹、a²、a³、a⁴ 乘上對應的矩陣生成 k, v,q 與 k 作相乘得到 α,再丟入 softmax 中得到 α',乘上對應之 v 向量再相加,最後丟入 FC 中就完成 Cross-attention 了,相信如果你熟悉 Self-attention 的機制,這邊的過程就是大同小異了。 當然,上述的流程可以經過不同的設計,例如不一定是要 Encoder 最後的輸出結果,依照任務的需求,可挑選最適合自己的架構。  ## 如何訓練 Seq2Seq? 以上內容屬於驗證(validation)或是測試(testing)階段,接下來說明如何訓練 Seq2Seq 的模型。 在訓練階段,有一組 Training set 代表擁有 x(feature) 以及 y(label),將 Encoder 輸出的 vector sequence 丟入 Decoder 中,此過程就是 cross attention 在做的事情,接著輸入 BIGIN 的 special token 再經過 softmax 得到一個分布,分布長度是常見的方塊字數量例如 3000 個,並輸出最大數值對應的方塊字例如「機」,透過 Loss function 這裡使用 Cross entropy 來計算 loss 數值大小,預期 loss 能愈小愈好,再經過最佳化(optimization)更新參數,希望得到一個好的 Seq2Seq model。 在訓練過程中使用的誤差函式,與驗證或測試過程中使用的誤差函式不同,前者是 Cross entropy 數值愈小愈好,而後者是 BLEU score 數值愈大愈好,為什麼不使用其中一個就好?因為 BLEU score 無法微分,對更新參數沒有幫助。 這裡特別一提,在訓練時機器都是吃正確答案,也就是下面用紅色框框標記的位置,使用正確答案(Ground truth)作為輸入,稱為 Teacher Forcing,可以想像成是老師在強迫灌輸新知識一樣。  :::info BLEU Score 是一種自動評估指標,用來比較「機器產生的句子(candidate)」與「人類撰寫的正確參考句子(reference)」之間的相似程度。 最早由 Papineni 等人在 2002 年提出,是機器翻譯領域最早被廣泛採用的自動化評估標準之一。 ::: :::info 不知道你會不會有一個疑問,在訓練時模型吃入的資料都是正確答案,但是在驗證或測試時機器不可能總是輸出正確答案,如果輸出錯誤的答案,再當成輸入丟進模型中,會不會造成後面的答案都走鐘呢?答案是會的,此種狀況稱為 Mismatch。 那可以如何避免 Mismatch 呢?很直觀的方式,就是在訓練資料中也加入一些錯誤的資料,讓機器自己去學習,避免它在驗證或測試時出現 Mismatch。 ::: ### 訓練 Seq2Seq 的小技巧 #### 1. Copy mechanism 只需要從特定的句子或者是文章中複製相同的字,不需要讓機器創造新的詞彙,例如人名、專有名詞、文章摘要等。 a. 機器翻譯  b. 聊天機器人  c. 寫摘要  #### 2. Guided attention 機器偶爾會犯下低級的錯誤,這時可以給它一點引導,例如語音合成(Text-To-Speech,TTS),在念句子時要由最左邊的文字開始一直到最右邊,如果跳來跳去反而會聽不懂機器在說什麼話。  #### 3. Beam search 假設 Decoder 的輸出只有 A 跟 B 兩種,可以看到紅色路徑在一開始的數值是較高的,但最後數值是較差的,而綠色路徑雖然一開始較差,但最後的結果是好的,那怎麼知道要走哪一條,方塊字總共有上千個,也不可能全部都走過一遍,這時就可以使用 Beam search。 特別注意的是,Beam search 適合用在有正確的輸出答案上,例如語音辨識,如果是需要一點創造力的任務,例如 Sentence completion、語音合成等,則可加入一點隨機性(randomness)使模型效果更佳。  ## 總結,Transformer 在文章中,一開始介紹了 Transformer 的 Encoder 以及 Decoder 分別負責的工作,並拆解各個專有名詞與計算過程,也說明了如何訓練 Seq2Seq 的模型,最後是一些值得留意的 Seq2Seq 訓練小技巧。 --- :::info 以上就是這篇文章「Transformer」的所有內容,第一次看的人會花比較多時間消化吸收,這是很正常的事情,若有任何問題,歡迎在下方與我聯繫、討論,接下來也會繼續分享相關文章,敬請期待。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up