# wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
由facebook AI發表
同為這系列的"某某某 to vector"還有wav2vec、data2vec...
facebook說這一篇是wav2vec的接班人~
## 觀點
神經網路需要大量的資料量,畢竟是Learn from Data,但有標記的資料可是相當難取得的(人力成本高),因此希望利用Unlabeld Data幫模型預訓練,再進一步微調到下游任務中。
本篇實驗中,驗證了模型經過預訓練後,只要利用少部分的標記資料就能達到相當不錯的成果。
## 成果與發展性
首先來看厲害的成果
只用10分鐘的標記資料 + 53k小時的沒標計資料,在LibriSpeech資料集的有雜音驗證集達到8.6%的WER,沒有雜音的5.2%的WER。
> word error rate (WER)
另外還有提出跨語言訓練方式,
## 作法
預訓練階段,不是對input,而是在latent space做mask,讓模型預測被掩蓋的部分,

mask作法 請參考 Bert
## NLP補充
word error rate : WER