# wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 由facebook AI發表 同為這系列的"某某某 to vector"還有wav2vec、data2vec... facebook說這一篇是wav2vec的接班人~ ## 觀點 神經網路需要大量的資料量,畢竟是Learn from Data,但有標記的資料可是相當難取得的(人力成本高),因此希望利用Unlabeld Data幫模型預訓練,再進一步微調到下游任務中。 本篇實驗中,驗證了模型經過預訓練後,只要利用少部分的標記資料就能達到相當不錯的成果。 ## 成果與發展性 首先來看厲害的成果 只用10分鐘的標記資料 + 53k小時的沒標計資料,在LibriSpeech資料集的有雜音驗證集達到8.6%的WER,沒有雜音的5.2%的WER。 > word error rate (WER) 另外還有提出跨語言訓練方式, ## 作法 預訓練階段,不是對input,而是在latent space做mask,讓模型預測被掩蓋的部分, ![image](https://hackmd.io/_uploads/H1VRvkdyA.png =90%x) mask作法 請參考 Bert ## NLP補充 word error rate : WER