wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

# wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 由facebook AI發表同為這系列的"某某某 to vector"還有wav2vec、data2vec... facebook說這一篇是wav2vec的接班人~ ## 觀點神經網路需要大量的資料量，畢竟是Learn from Data，但有標記的資料可是相當難取得的(人力成本高)，因此希望利用Unlabeld Data幫模型預訓練，再進一步微調到下游任務中。本篇實驗中，驗證了模型經過預訓練後，只要利用少部分的標記資料就能達到相當不錯的成果。 ## 成果與發展性首先來看厲害的成果只用10分鐘的標記資料 + 53k小時的沒標計資料，在LibriSpeech資料集的有雜音驗證集達到8.6%的WER，沒有雜音的5.2%的WER。 > word error rate (WER) 另外還有提出跨語言訓練方式， ## 作法預訓練階段，不是對input，而是在latent space做mask，讓模型預測被掩蓋的部分， ![image](https://hackmd.io/_uploads/H1VRvkdyA.png =90%x) mask作法請參考 Bert ## NLP補充 word error rate : WER