Sih Sîng-hông
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights New
    • Engagement control
    • Make a copy
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Note Insights Versions and GitHub Sync Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Make a copy Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       Owned this note    Owned this note      
    Published Linked with GitHub
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    # 整理語料庫 --- ## 欄位說明 - `漢字`:教育部辭典漢字 - `本調臺羅`:語者唸的稿 - 照教育部連字符原則來處理。例外:句首輕聲猶原愛標`--` - `口語調臺羅`:發音人實際按怎唸,聲韻佮實際的調。 - 照教育部連字符原則來處理連字符,例外:莫標輕聲`--`。 - `語者`:發音人,無需要傷準 - https://groups.google.com/d/msg/kaldi-help/MPWd835mW14/-qAjhBXSCwAJ ---- ### 備註 - 連字符[介紹](http://ws.moe.edu.tw/001/Upload/FileUpload/3677-15601/Documents/lanrule.pdf)、[詳細規則](http://ws.moe.edu.tw/001/Upload/FileUpload/3677-15601/Documents/lanclassify.pdf) - 臺羅用數字調、傳統調攏會用得 --- ## 範例 欄位 | 範例 --- | -------- 音檔 | [twisas0015.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/131.152/133.724/audio.wav) 漢字 | `相拍乎,本來就毋著` 本調臺羅 | `sio1-phah4 honnh4, pun2-lai5 to7 m7 tioh8` 口語調臺羅 | `sio7-pha2 honnh4, pun1-lai5 to3 m3 tioh3` - 輕聲 - 口語無仝 - 合音 - 毋是漢語 - 外來詞 - 語氣詞 - ian/ien/en - o/oo - 腔口 - 第九調 - 第十調 - 教典無收 - 外語詞 - 人名 - 發音毋著 - 大舌 ### 輕聲 語氣詞 欄位 | 範例 --- | -------- 音檔 | [twisas0051.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/246.069/248.931/audio.wav) 漢字 | hm7啊無你這馬講這是啥物話hannh4 本調臺羅 | `hm7 ah4 bo5 li2 tsit4-ma2 kong2 tse1 si7 siann2-mih4 ue7--hannh4` 口語調臺羅 | `hm7 a1 bo5 li1 tsit8-ma2 kong1 tse1 si3 siann1-me1 ue7 hannh4` 欄位 | 範例 --- | -------- 音檔 | [twisas0216.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/656.398/658.747/audio.wav) 漢字 | 若按呢你共我縛起來 本調臺羅 | `na7 an2-ne1 li2 ka7 gua2 pak8--khi2-lai7` 口語調臺羅 | `na3 a1-ne1 li1 ka3 gua1 pak4 khi3-lai3` ### 口語無仝 欄位 | 範例 --- | -------- 音檔 | xx0011.wav 漢字 | 遮的攏總一百箍。 本調臺羅 | Tsia--ê lóng-tsóng tsi̍t-pah khoo . 口語調臺羅 | tsia1 0e3 long1-tsong1 tsit10-pa4 khoo1 . 華語 | 這邊的都一百塊。 欄位 | 範例 --- | -------- 音檔 | xx0012.wav 漢字 | 遮的攏總一百箍。 本調臺羅 | Tsia--ê lóng-tsóng tsi̍t-pah khoo . 口語調臺羅 | tsia1 0e3 long1-tsong2 tsit10-pa4 khoo1 . 華語 | 這邊的全部一百塊。 ### 合音 欄位 | 範例 --- | -------- 音檔 | [twisas0010.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/123.242/125.706/audio.wav) 漢字 | 啊看著(查某)囡仔(予人)欺負乎 本調臺羅 | `--ah4 khuann3-tioh8 tsau9 gin2-a2 hong9 khi1-hu7--honnh4` 口語調臺羅 | `a1 khuann2-tio3 tsau9 gin1-na2 hong9 khi7-hu7 honnh4` #### 標袂出來的合音 揣無漢字就直接用本調 欄位 | 範例 --- | -------- 音檔 | [twisas2042.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/2/1137.367/1139.1/audio.wav) 漢字 | `gua9好食來` 本調臺羅 | `gua9 ho2 tsiah8 lai5` 口語調臺羅 | `gua9 ho1 tsiah8 lai5` ### 毋是漢語 欄位 | 範例 --- | -------- 音檔 | [twisas0048.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/240.365/242.987/audio.wav) 漢字 | 飼二十外年矣乎uan1-na2有夠啦 本調臺羅 | `tshi7 ji7-tsap8-gua7 ni5--ah4--honnh4 uan1-na2 u7-kau3--ah4--lah4` 口語調臺羅 | `tshi3 ji3-tsap10-gua3 ni5 ia honnh4 uan7-na1 u3-kau3 ah4 lah4` 叫阿母是 i1-a2 欄位 | 範例 --- | -------- 音檔 | [twisas2998.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/3/1252.27/1255.01/audio.wav) 漢字 | 我去共i1仔講 本調臺羅 | `gua2 khi3 ka7 i1-a2 kong2` 口語調臺羅 | `gua1 khi1 ka3 i7-ia3 kong2` ### 外來詞 愛回推假的本調 欄位 | 範例 --- | -------- 音檔 | [twisas0235.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/699.136/702.333/audio.wav) 漢字 | 這个月khoo1-mi2-siong2乎共三寶算算啊啦 本調臺羅 | `tsit4 ko3 gueh8 khoo1-mi2-siong2--honnh4 ka7 Sam1-po2 sng2 sng2--ah4--lah4` 口語調臺羅 | `tsit8 ko1 gue7 khoo7-mi1-siong2 honnh4 ka3 Sam7-po2 sng2 sng3 ah4 lah4` bye-bye 欄位 | 範例 --- | -------- 音檔 | [twisas0598.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/2262.706/2265.275/audio.wav) 漢字 | `按呢以後較無相欠,pai2-pai7` 本調臺羅 | `an2-ne1 i2-au7 khah4 bo5 sio1-khiam3, pai2-pai7` 口語調臺羅 | `an1-ne1 i1-au7 kha1 bo7 sio7-khiam3, pai1-pai7` 日語外來詞頭一字無第5調,是第9調。(教典音值攏註35,代表第9調。音值13才是第5調) 欄位 | 範例 --- | -------- 音檔 | [twisas1141.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/4195.862/4197.984/audio.wav) 漢字 | 毋才會害咱兜的khang9-pang2強強欲拆落來 本調臺羅 | `m7-tsiah4 e7 hai7 lan2 tau1 e5 khang9-pang2 kiong7-kiong7-beh4 thiah4--loh8-lai5` 口語調臺羅 | `m3-tsia2 e3 hai3 lan1 tau1 e7 khang9-pang2 kiong3-kiong3-be1 thia2 lo3-lai3` 華語外來詞 阿祥 2819 2825 ### ian/ien/en 免分ien佮en,照臺羅拍ian 欄位 | 範例 --- | -------- 音檔 | xx0013.wav 漢字 | 放煙火 本調臺羅 | `pang3 ian1-hue2` 口語調臺羅 | `pang2 ian7-hue2` ### o/oo 若是北部腔的o,勾狀況起來,賰个照臺羅做 欄位 | 範例 --- | -------- 音檔 | [twisas0046.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/236.063/237.63/audio.wav) 漢字 | 你知無啦 本調臺羅 | `li2 tsai1--bo5--lah4` 口語調臺羅 | `li1 tsai1 bo5 lah4` 狀態 | 北部腔o ### 腔口 因為辭典攏有收 認真口語唸lin7-tsin1 ,本調就拍lin7-tsin1 認真口語唸jin7-tsin1 ,本調就拍jin7-tsin1 ### 第九調 外來詞、合音,面頂攏有例 三連音 ### 第十調 舊的10維持10,新的拍4調 欄位 | 範例 --- | -------- 音檔 | [twisas0020.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/140.819/142.019/audio.wav) 漢字 | 一百萬提來 本調臺羅 | `tsit8-pah4 ban7 theh8--lai5` 口語調臺羅 | `tsit10-pa2 ban7 theh8 lai3` ### 教典無收 bin=>mi 欄位 | 範例 --- | -------- 音檔 | [twisas18729.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/17/4647.465/4649.231/audio.wav) 漢字 | 明仔載你佮我來病院一逝 本調臺羅 | bin5-a2-tsai3 li2 kah4 gua2 lai5 penn7-inn7--tsit8-tsua7 口語調臺羅 | mi7-a1-tsai3 li1 kah8 gua1 lai7 penn3-inn7 tsit4-tsua3 ### 外語詞 先勾狀況`外語詞`,其他先免處理。若無法度判斷`外語詞`抑是內化的`外來詞`,用臺羅有法度標無 欄位 | 範例 --- | -------- 音檔 | xx0013.wav 漢字 | 日本的首都號做Tokyo。 本調臺羅 | Jit8-pun2 e5 ㄕㄡˇ-ㄉㄨ ho7 tso3 Tokyo . 口語調臺羅 | ---- 華語 | 日本的首都叫東京。 ### 人名 1039 欄位 | 範例 --- | -------- 音檔 | [twisas1039.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/3781.191/3783.696/audio.wav) 漢字 | 麗芸啊豬跤滷好未 本調臺羅 | `Le7-hun5--ah4 ti1-kha1 loo2 ho2--bue7` 口語調臺羅 | `le3-hun5 a3 ti7-kha1 loo1 ho2 bue3` ### 發音毋著 勾`講法佮辭典無仝` 欄位 | 範例 --- | -------- 音檔 | [twisas0286.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/1/861.272/863.042/audio.wav) 漢字 | 莫佇遮講甲喙角全波啦 本調臺羅 | `mai3 ti7 tsia1 kong2 kah tshui3-kak4 tsuan5 pho1--lah4` 口語調臺羅 | `mai2 ti3 tsia1 kong1 ka1 tshue2-kak4 tsuan7 pho3 lah4` ### 連續發音 照字數標 欄位 | 範例 --- | -------- 音檔 | [twisas2502.wav](https://twisas.iis.sinica.edu.tw/%E9%9F%B3%E6%AA%94/2/2306.791/2308.16/audio.wav) 漢字 | 來來來來來Khio2桑 本調臺羅 | `lai5 lai5 lai5 lai5 lai5 Khio2 sang3` 口語調臺羅 | `lai5 lai5 lai5 lai5 lai5 Khio2 sang3` ### 雜音 SPN 字 nsn 字 nsn tth ltsh --- ## 漢字規範 - 教育部辭典漢字 - 若是合音,就先標合音 ### khiu5-te3-te3 教育部查會著,拍會出來→漢字 若無→臺羅 ### 照漢字唸的外來語 1. 教育部有 2. 教典無,甘字典有 3. 教典、甘字典攏無,是人名→口語照聲音拍,漢字本調照口語回推 4. 教典、甘字典攏無,毋是人名→照意思選漢字,本調照辭典,口語照聲音拍 --- ## 本調臺羅規範 - 語者唸的稿 - 照教育部連字符原則來處理。例外:句首輕聲猶原愛標`--` - 若是合音,就先直接合音的結果 --- ## 口語臺羅規範 發音人實際按怎唸,聲韻佮實際的調。 [文獻收集](https://hackmd.io/s/BJWPAo6_b#%E7%AC%AC%E5%85%AB%E8%AA%BF%E8%AE%8A%E8%AA%BF%E7%9A%84%E7%AC%AC%E5%8D%81%E8%AA%BF%EF%BC%8C%E4%BD%AE%E7%AC%AC%E5%9B%9B%E8%AA%BF%E7%84%A1%E4%BB%9D) 1. 有第九調(合音、三連音頭一字、日語) 2. 第十調標第四調就好,舊的第10調模振動~~有第十調(第八調變調了後,入聲輕聲)~~ 3. 南北腔的`oo/o`,標注北腔~~`or/oo/o分別是ə/ɔ/o`~~ 4. ~~ian分`ien佮en`~~ 5. 照教育部連字符原則來處理連字符。例外:莫標輕聲`--`。 6. 若是合音,就直接拍合音的結果 tsit8-pa2--ah 口語臺羅是tsit10 pa2 a3 毋是tsit10 pa2--a3 詳細看[討論紀錄](https://hackmd.io/s/rkrnAX_I-#%E5%8F%A3%E8%AA%9E%E8%AA%BF%E8%87%BA%E7%BE%85%E9%80%99%E7%A8%AE%E7%89%A9%E4%BB%B6%E6%84%9B%E6%8C%89%E6%80%8E%E8%A8%98%E9%8C%84%EF%BC%9F) --- ## 標記 ---- 標記 | 說明 --- | -------- 範例 | 愛討論 | 講袂清楚 | 有人聲雜音 | 喘氣、吐大氣 有非人聲雜音 | 拍手、車聲、音樂 有外語詞 | 日語、華語…外來詞無算 有合音 | 教育部標合音,`kiann9-jit8` 講法佮辭典無仝 | 家己講`ka-li7` 無合語感 | 切音 太長,切毋著位,造成語法毋著 太長,切毋著位,造成有的音無完整 一句話有兩个人 ---- 參考 [人工聽的紀錄](https://github.com/sih4sing5hong5/tai5-uan5_gian5-gi2_hok8-bu7/issues/108) - 範例 - 愛討論 - 品質:講袂清楚 - 品質:有人聲雜音 ``` tong0000222-0000002許素英-ku0000048 為-生|ui5-sing1 拍|phah4 一|tsit8 例|le7 咧|teh4 食|tsiah8 通|thang1 食|tsiah8 腰|io1 仔|a2 熁|hannh4 ``` - 品質:有非人聲雜音 - 喘氣 - 吐大氣 ``` tong0000054-0000004添福-ku0000326 <吐大氣> hooh10|hooh10 好|ho2 落|la3 ``` - 品質:講袂清楚 - 音標毋知抑欲按怎拍 - 詞:有外語詞 - 日語、英語、華語 - 詞:有合音 - 參考:https://github.com/sih4sing5hong5/tai5-uan5_gian5-gi2_hok8-bu7/issues/108#issuecomment-253966569 - 詞:講法佮辭典無仝 - 句:無合語感 - 應該講,煞無講的,嘛照發音拍 - 無應該講,煞加講的,嘛照發音拍 ``` tong0000208-0000000主播-ku0000017 這|tsit4 例|le7 -|- 飽|pa2 百|pah4 -|- 就|to7 -|- 趕-緊|kuann2-kin2 -|- 真-緊-張|tsin1-kin2-tiunn1 ``` ---- ### 標記範例 出現時機 只出現在講話前/講話後 只出現在講話中 出現在講話前/後+講話中 有第二人小聲講話 重切音檔 直接標記 重切音檔 有第二人大聲說話 重切音檔 音標不要 音標不要 小聲的人聲SPN 重切音檔 直接標記 重切音檔 大聲的人聲SPN 重切音檔 音標不要 音標不要 小聲的噪音NSN 直接標記 直接標記 直接標記 大聲的噪音NSN 重切音檔 音標不要 音標不要 ![](https://i.imgur.com/rjmu45n.png) 狀況1. 直接標記 若是一个人講話,講話前後無別的聲。 講話的時陣就算有別的人聲/非人聲,只要主要發音人的聲聽得清楚。 狀況2. 重切音檔 若是一个人講話,講話前後有聲,不論是非人聲(NSN)或人聲(SPN) 狀況3. 音檔不要 - 兩个人同齊講話,聲音大小接近 - 聽袂清楚 #### 1. 有錄音設備tshat8-tshat8聲,毋過人講的話,聽非常清楚 (免標記) #### 2. 講話時有人佇邊仔講話,毋過主要語者講的話,聽了非常清楚 (免標記)per day?per hour? #### 3. 講話時有狗佇pui(吠),毋過人講的話,聽了非常清楚 (免標記) #### 4. 有錄音設備tshat8-tshat8聲,毋過人講的話,聽袂清楚 `有非人聲雜音` #### 5. 講話前喘氣 `有人聲雜音` #### 6. 講話前有狗佇pui `有非人聲雜音` #### 7. 講話時有狗佇pui,毋過人講的話,聽袂清楚 `有非人聲雜音` #### 8. 兩个人同齊講話 `有人聲雜音` #### 9. 講話前有人佇邊仔講話,毋過誠細聲 `有人聲雜音` #### 10. 講話時有人佇邊仔講話,主要語者講的話,聽袂清楚 `有人聲雜音` #### 11. 講話大舌,聽無佇講啥 `講袂清楚` #### 12. 講話傷緊,聽無佇講啥 `講袂清楚` ### 問題 到底偌大聲愛記? --- ## 高老師檢查的方式 - 看校對過的資料 - 敢愛改資料? 1. 袂使改,加註解就好 - 愛佮逐家討論,以後才袂閣出現仝款的錯誤 2. 會使改 - 減少助理的空課 --- ## 資料產生流程 ### 台文語料庫1.0版 #### 原始資料有兩種 1. 有斷開 ``` ah1 dor2 zin2-ziann4 du1-dior3 kun4-lan5 曷 就 真-正 拄-著 困-難 ``` 2. 攏連做伙 ``` Stella-du1-ziah2-qua1-ki1,li1-e2-ban3-gong2-sik2,li1-e2-gong2-si 1,kuann3-ki3-lai3,zin2-ziann4-ve3-vai4-ne2- Stella - 拄-才 我 欺 你-的 辦-公-室 你-的 公-司 看 去 內 真-正 袂-䆀 拈 ``` #### 匯入資料庫前的處理 1. 口語調通用[處理外語、標點符號](https://github.com/Taiwanese-Corpus/Ko-Ming-Tat_2015_TAIWANESE-SPEECH-AND-TEXT-CORPUS/blob/master/%E8%A9%A6%E9%A9%97/test%E6%8F%90%E5%87%BA%E9%80%9A%E7%94%A8%E5%96%AE%E5%85%83%E8%A9%A6%E9%A9%97.py#L5) ``` si3 hue1-cia2-tau5 ``` 2. `口語調通用`轉成`口語調臺羅` ``` si3 hue1-tshia7-thau5 ``` 3. 口語臺羅辭典會存`上尾字`有變佮無變,兩種口語調 - 本調`是/si7` - 辭典會存`是/si7`佮`是/si3` - 本調`火車/hue2-tshia1` - 辭典會存`火車/hue1-tshia1`佮`火車/hue1-tshia7` 4. 以`原本詞`為主,閣入去斷詞,揣候選斷詞 假設辭典無`火車頭` ``` si3 => 是/si3、四/si3、示/si3… hue1-tshia7-thau5 => 火車/hue1-tshia7、頭/thau5 ``` 5. 候選斷詞調整做本調 ``` si3 => 是/si7、四/si3、示/si7… hue1-tshia7-thau5 => 火車/hue2-tshia1、頭/thau5 ``` 6. 自本調文本訓練出本調語言模型,揀出機率上懸的 ``` 口語調:si3 hue1-tshia7-thau5 本調:si7 hue2-tshia1-thau5 漢字:是火車頭 ``` 7. [口語調嘛照本調臺羅斷詞](https://github.com/Taiwanese-Corpus/Ko-Ming-Tat_2015_TAIWANESE-SPEECH-AND-TEXT-CORPUS/pull/10/commits/8c68d3e93fc9a4af141aaabfe23b3a5fb503ba42) 因為假設辭典無`火車頭`,所以會斷做 ``` 口語調:si3 hue1-tshia7 thau5 本調:si7 hue2-tshia1 thau5 漢字:是火車頭 ``` 8. 囥入資料庫 --- ## 問題 ### 為啥物辨識需要遮濟欄位? 漢字、本調臺羅:大部份語料的書寫型式 口語調臺羅:辨識需要實際發音的紀錄。名稱[來源](http://twblg.dict.edu.tw/holodict_new/compile1_3_4_2.jsp) 華語:若是辨識的結果需要是華語,這愛提來做台華辭典 #### 標狀況是為著啥? 合音 : 定漢羅的規範 有外語詞 : 快速閬過 唸法佮辭典無仝:程式自動檢查 無合語感 : 為著後壁lm ### 為啥物用網站來校對語料庫? a. 自動檢查拼音 b. 同步版本控制 c. 濟人校對 ## `口語調臺羅`這種物件愛按怎記錄? >[name=sing5hong5]除了IPA以外,台文界敢捌訂出規範? > >愛考慮的問題 >1. 辨識敢一定愛? >2. 做會到無? ### 調、輕聲的紀錄 >[name=liz] >我共你講喔,聲調紀錄這,欲記實際的口語調,會比記本調較困難 >毋過就發展來看,有兩種方式 >1. toh4 ting2# koh4 u7 tshai3# . >2. toh42 ting2# koh41 u73 tshai3#.. > >輕聲若是欲記音位,會當記0,若欲記口語調臺羅就無一定,有人隨前 >音位我建議按呢記:tshut40 lai50 > >若標口語調臺羅就毋是按呢標矣,愛兩數字neh!若是標調類的口語調閣欲分口語調臺羅懸低,會較費氣,比論講,調類8,每一位的調值有差,按呢會出問題 ### 第九調 [教育部臺灣閩南語羅馬字拼音手冊](http://khai.mtwww.mt.au.edu.tw/ezcatfiles/b077/img/img/276/tshiutsheh.pdf) P13 董忠司-福爾摩沙的烙印:台灣閩南語概論 P90 漢字:若是合音是第九調,就標第九調臺羅 本調:若是合音是第九調,就標第九調 口語:照聽著的拍 ### 第十調 舊的10維持原樣,新的校對第8調時口語調標4即可。 #### 第八調變調的第十調,佮第四調無仝 盧廣誠-台灣閩南語概要 P20 - 第4調本調調值32 - 第8調變調調值21 楊秀芳-台灣閩南語語法稿 P138 - 第4調本調調值22/32 - 第8調變調調值11 董忠司-福爾摩沙的烙印:台灣閩南語概論 P96 - 第8調變調為第4調。此為簡便說法,實際為低降的入聲。 洪惟仁-台灣河佬話聲調研究 #### 入聲輕聲 - [audio44.wav](https://github.com/sih4sing5hong5/te7-tsap8-tiau7/tree/master/audio)的`neh` >[name=naphing]8佮10分袂出來 >[name=高]無分,對辨識系統敢有差 >[name=sing5hong5]有差,毋過人分袂出來 ### ian/ien/en 標ian/iat就好,賰的予kaldi處理 #### 原本方案 >[name=liz] >就是:or/o/oo,`ian/en`,其他方言差無問題就是用彼幾个 #### 語言學變化解釋,別的語言嘛有這種情形 [Low Vowel Raising in Sinitic Languages: Assimilation, Reduction, or Both?](http://www.ling.sinica.edu.tw/files/publication/j2012_4_01_9096.pdf)第7/41頁 #### 有en的現象 [失控的台語課](https://www.facebook.com/taigikho/posts/1364223010298347:0) 董忠司-福爾摩沙的烙印:台灣閩南語概論 P67 #### ian>ien的原理 http://blog.xuite.net/khoguan/blog/9052674-ian http://hik-u-tw.blogspot.tw/2012/07/ianien.html #### 實驗結果 ### kaldi做法-相關實驗 - 2017/10 - 用twisas 90點鐘的語料 - 聲學模型:音位phoneme - `-ian`的lexicon 一律標 `i+e+n` - 煙 → i + e + n - 有32,388个`-ian`音節 - 全部有1,896,029音節 - GMM的SAT模型 - Sîng-hông錄兩句`i+e+n`火佮`e+n`火,聲學模型會當分別 所以標ian/iat就好 咱做force-alignment先辨識ien/en,才閣訓練就好 ### o/oo有兩套,分`/ə/`、`/o/`、`/ɔ/` >[name=liz] >就是:or/o/oo,`ian/en`,其他方言差無問題就是用彼幾个 >or/oo/o分別是ə/ɔ/o >因為無人正式規範過,所以你感覺倒一套好分析就佗一套 > >[name=liz] >毋過你愛確定你真正欲用口語調臺羅記........ > >[name=丞宏] >我嘛佇想,口語調臺羅不管按怎,成本攏誠懸。 >語音辨識愛的就是口語調臺羅,ian/en閣會當無記,毋過 o/oo 有影響辨義就愛記 > >[name=liz] >/o/,/oo/這一組元音,在諸多對於台灣閩南語口語調臺羅描述的著作中,很早就注意到他們有不同的口語調臺羅,張振興(1992)認為是漳泉之別 ,董忠司(2001)認為是南北之分 :「北部腔和海口腔 ……口型比較圓,中部不很圓,南部地區則已變為展脣而不圓。」大體而言,/o/,/oo/的口語調臺羅描述,就是 [ə]、[ɤ]、[o]、[ɔ]這四個在舌位圖上呈現倒反L分布的元音,依相對位置組合出來不同的結果, >[name=liz]張振興彼應該是「閩南方言紀略」,董忠司應該是福爾摩沙的烙印:台灣閩南語概論。彼段是我家己佇某一篇論文內底寫的,若是隨後確定的來源,我轉去才揣,毋過應該我頂面寫的彼兩本來的,畢竟我讀的冊無濟.... > ##### 現象 張振興-閩南方言紀略 P27 董忠司-福爾摩沙的烙印:台灣閩南語概論 P78 #### 方言差`ir`、`er`、`ee` >[name=liz] >就是:or/o/oo,`ian/en`,其他方言差無問題就是用彼幾个 ## 其他 [本調臺羅、斷詞佮詞條](https://hackmd.io/s/HJX3K0I8-)的規範 ### 無愛的音檔 氣音 ### 華語3-3變調 >[name=sing5hong5]「雨水」的「雨」THCSH30攏標第二聲 >[name=ricer]有關於 音調 我倒是就覺得不是這麼重要 主要不要差太多即可,有幾種作法 >a. 用人工先標記,然後做統計,機率高於閥值的才收入到辭典,方法一是音是分開的 >b. 在做decision tree 的時候,可以將不同聲調的音素tied在一起 >c. 在decoing的時候,語言模型做好一點,上下文的關係,可以補足音調差異的問題

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password

    or

    By clicking below, you agree to our terms of service.

    Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully