--- tags: MI2S --- MI2S-ASR === TODO: * Corpora wav naming format * trn naming format * file structure * `init_project.sh` ???? * project location [語音辨識優化計畫](https://hackmd.io/oALW-Z4iSLe9VkR7LaCXmA?fbclid=IwAR3M-703CPlZ4MnRrv9oqCWHSzwtcEluVK0eAUxNugSFFqKBT53OAhgVntM) ## File structure * `local` : local programs or functions * `mfcc` : * `exp` : temp files * `project` * `corpora` * `wav` * `trn` * `transcript` : * `fff` : * `ddd` : * `audio` : audio files * `logs` : logging during training asr * `models` : * `online2file` : decoding result * `<audio-file>` : including `.lats`, `.ali`, `.utt2spk`, `.txt` <br> ### dataset * Dataset: `<lang>_<project>_<index>_isToned` * Speaker: `<Dataset>_<speaker>` * wav-file : `<Dataset>_<Speaker>_<index>.wav` **Example:** ``` MA_finance_0001_tone |--- README (optional) |--- train | |--- MA_finance_0001_tone_F01 | | |--- MA_finance_0001_tone_F01_0000001.wav | | |--- MA_finance_0001_tone_F01_0000002.wav | | |--- MA_finance_0001_tone_F01_0000003.wav | | |--- ... | | | |--- MA_finance_0001_tone_F02 | |--- MA_finance_0001_tone_F02_0000001.wav | |--- MA_finance_0001_tone_F02_0000002.wav | |--- MA_finance_0001_tone_F02_0000003.wav | |--- ... | |--- dev |--- MA_finance_0001_tone_F03 |--- MA_finance_0001_tone_F01_0000001.wav |--- MA_finance_0001_tone_F01_0000002.wav |--- MA_finance_0001_tone_F01_0000003.wav |--- ... ``` * `MA_finance_0001_tone` : dataset 資料夾名稱 * 底下切分 `train`, `test`, `dev`, 基本上 `test` 全等於 `dev`, 資料量大約 `8:1:1` * `MA_finance_0001_tone_F01` : 說話者編號 <br><br> ## transcript ``` <lang>_<name> ``` * `lang` : 參考 `corpora` 的 naming format * `name` : 大致內容是啥,自己決定 Example : * ## corpora * `README` ### Current * `A001` - `A400` : Aishell 語料, 中文 * `C001` - `C018` : 中研院語料, 中文 * `C020` : MI2S 自己設計的語料,大部分都是指令 * `S00`, `S03` - `S05` : 台語 * `S06` : 中文 * `S07` - `S38` : 台語 * `S81` - `S94` : 台語, 但不知道用途,問俊穎 * `H01` - `H02` : 客語 * `HclothingHai` : 客語海陸腔 * `HclothingHaiSi` * `HclothingSi` : 客語四縣腔 * `HeduHai` * `HeduHaiSi`: 客語四縣腔 * `HeduSi`: 客語四縣腔 * `HfoodHai` * `HfoodHai` ### Naming Format ``` <lang>_<index>_<isTone> ``` * 用 `_` 隔開 單一語言 : * `TA` : 台語 * `MA` : 中文 (台灣繁體中文) * `CA` : 粵語 * `HA` : 客家語 * `EN` : 英語 * `BA` : 印尼語 * `JA` : 日語 多語言 : * `CA-EN` : 粵英語混合 * `TW-TA` : 國台語混合 * `TW-EN` : 國英語混合 * `CA-EN-MA` : 粵英國語混合 <br> **Example :** * `TA-001-toneless` : 台語語料,編號001,無聲調 * `CA-EN_001_tone` : 粵英混合語料,編號001,有聲調 :::info 單一語言一定會參雜少量其他語言 (e.g. 台語中的外來字),此種情況一樣視為單一語言 ::: <br><br> ### trn ``` { "audio_001.wav": ["吃 中藥 能 活 比較 久 嗎", "tsrhir* tsroong* iau* nong* huoo* pi* tsciau* tscioou* ma*", "tsrh ir* tsr oong* iau* n ong* h uoo* p i* tsc iau* tsc ioou* m a*"], "audio_002.wav": ["如何 維持 血壓", "jru* ho* uei* tsrhir* scye* ia*", "jr u* h o* uei* tsrh ir* sc ye* ia*"], ... } ```