# 語音資料擴增: Google直接在頻譜圖上做擴增 ###### tags: `ML` `Data augmentation` > 原文連結: [A Simple Data Augmentation Method for Automatic Speech Recognition (Jul 2019)](https://arxiv.org/pdf/1904.08779.pdf) 該篇論文以梅爾頻譜(log mel spectrogram)直接做資料擴增來取得有用的聲音特徵,其核心概念是,梅爾頻譜應該在時間方向上、損失部分頻率資訊以及損失部分語音區塊,其特徵應具有強健性以及可解構性,以此概念提出以下三種擴增方針。 1. 時間上的扭曲(time wwarping)是應用`tensorflow` 的函式 `sparse_image_warp` 2. 頻率遮罩,是在某梅爾頻段上應用一遮罩 3. 時間遮罩,於區段連續時間上應用一遮罩 ![aug_policy](https://i.imgur.com/sfX4f9S.png)