# 媠聲標記規則 新版:https://hackmd.ithuan.tw/@fFPu4cAQSSC7Ln4qB2xJQg/ByxRAxcjCd ## 標記 ### 第9調 來源:強調、合音、日語詞、三連音 > 因為全部ê變調規則kan-na三連音有thang變做第9調 > 所以除了三連音以外ê變調規則,攏假設本調第9調,一般規則變調抑是仔前變調攏變做第9調,攏寫第9調 [#102](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/102) #### 強調(?) ``` 580 Ti̍t-ti̍t piànn-mê-kang, beh hōo tsit tīn lâng tsőng thiám--sí tsiah kam-guān--nih? 581 Ti̍t-ti̍t piànn-mê-kang, beh hōo tsit tīn lâng tsóng thiám--sí tsiah kam-guān--nih? ``` #### 強調+仔前變調 856 所以講,欲去日本的朋友,可能會`小可仔`受著天氣的影響,但是風颱應該是無啥影響。 Sóo-í kóng, beh khì Ji̍t-pún ê pîng-iú, khó-lîng ē `sió-khua̋-á` siū-tio̍h thinn-khì ê íng-hióng, tān-sī hong-thai ing-kai sī bô siánn íng-hióng. #### 合音 `tsa̋u-gín-á`,書寫寫`tsa̋u`第9調,口語嘛唸`tsa̋u`第9調 ### 形容詞三疊字的9調標記 [#91](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/91) 這有系統性ê規則,程式ē-tàng處理,袂有別種可能。照一般書寫標本調就好 ## 合音 [#80](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/80) - 根據原本的詞佇句內尾字敢會變調來決定合音詞的口語是毋是變調 `毋好好仔拍拚趁錢,以後nài綴人會著?` > 假設kâng詞組行為會仝款。因為` nà ē `的` ē `會變調,所以認為口語第2調嘛是經過變調,書寫寫第3調nài > `拍無去/拍毋見 合音` > 拍無去phah-bô--khì 合音寫pháng--khì(因為`無`本調、`去`輕聲,前者`pháng`維持本調) > 拍毋見phah-m̄-kìnn 合音寫phàng-kìnn(因為`毋`變調,所以`pháng`3變2規則變調) > > 合音詞「予人」當做無變調,照口調標 [#49](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/49#issuecomment-457483142) > 因為`予人`來源有`1. I hōo lâng phah.`佮 `2. I hōo lâng# phah.`兩種,所以無法度照 #80 來知影有變調無,才有這个討論。閣因為合音口語有 3,5,7,9 調,`予人`合音用`變調`會有揣本調的困難,所以`予人`合音直接當作`本調`。 > > 口語第九調,書寫第九調 ## 第7調抑是第8調 因為有ê字,袂出現本調,所以敢若口語調第3調,毋知本底是7抑是8調, 所以就照教典主詞條收ê聲調為主。 `mn̍gh-kiānn`就照主詞條收`mi̍h-kiānn`寫第8調 [#197](https://github.com/i3thuan5/Jiboo/issues/197#event-2739138219) ## 教典地名漢字bua̋i參考 用華語漢字:烏來U-lai、 亞東醫院 A-tang Pēnn-īnn/A-tang Pīnn-īnn 教典:後龍 Āu-lâng, 1. 後lâng(漢字有合就用漢字) 2. Āu-lâng(有漢字袂合就用全羅) 選1較簡單,予程式掠,若無對漢字,用羅馬字 無選2的理由:打貓、台北 會歹處理tang-sî用全羅馬字 ### 用字範圍 - O:地名以外其他詞條、又音、方音差 - X:詞條-地名、例句(會有地名) ## 腔口 ### 老師第8調本調是像第2調 [#43](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/43) 編號 646,日語詞的句: ``` Há-muh𩛩sio̍k-pháng是蓋濟囡仔上愛食的。 ``` **食** 就是像第二調。 ## 語氣詞 [#48](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/48) 1.發音第四調佮第三調的 漢字寫:啊、呢、喔 臺羅寫:--ah、--neh、--ooh > 因為3,4調人歹分 2.發音其他調的 漢字欄、臺羅欄攏用臺羅標 oo1、oo7、oo9、oo5 照語者講的聲調為準 ### 哈哈哈 [#111](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/111) 假設語氣詞攏袂變調 > 聽起來口語調是2,4,3 怎標? `Há--hah--hah` > 聽起來口語調是2,2,4,3 怎標? `Há há--hah--hah` ## 狀聲詞 > 邊仔彼一寡人聽著少年家按呢講,攏笑甲嘻哈叫。講:「這个人頭殼定著有問題!」 > > 「嘻哈」應是狀聲詞,老師念3,3調,這該怎標? 頂頭`哈哈哈`是語氣詞,所以kah別ê詞無仝。 `嘻哈叫`就照一般詞回推本調`hī-hā-kiò` ## 外語 ### 英語詞 漢字部份ê英語,攏照漢字部份ê羅馬字寫法 [#45](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/45#issue-397401453) ``` 漢:B-two 羅:B-two 漢字: B三 臺羅:B-sann C++:漢字&臺羅:C-plus-plus 符號類:+ ->plus &->and(,B&Q) R&B:R-and-B Uber(合念) U-bike(U分念) FBI(LJ Speech ê 文本) FBI-agency(LJ Speech ê 文本) ``` 若毋是英語唸法,而且羅馬字寫會出來,就寫羅馬字 `袂當loo3-su2(lose)任何一條訊息` [#175](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/175) ### 華語詞 照全羅書寫,規ê當做外語詞 - 2B:漢字`二B`;臺羅`二-B` [#45](https://github.com/i3thuan5/SuiSiann-KauTui/issues/45#issuecomment-886307019) - 柯P:漢字`柯P`;臺羅`柯P` [#45](https://github.com/i3thuan5/SuiSiann-KauTui/issues/45#issuecomment-886307019) ## 標點 - 句頭攏大寫 [#116](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/116) - 句尾符號:句點、分號、豆號看文意,實際tī語音合成攏有可能出現 [#116](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/116) - 針對thang接句仔ê動詞,若是有變調,後壁ài是豆號抑是冒號。本調就句號 [#33](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/33) - 引號方向:若新拍ê,就拍無方向較利便。若已經拍好有方向--ê,就保持有方向 - [對應羅馬字](https://github.com/i3thuan5/kau3-tian2_iong7-ji7/blob/master/%E7%94%A8%E5%AD%97/%E6%A8%99%E9%BB%9E%E8%A6%8F%E7%AF%84.py#L8-L26) ``` Oct 6, 2018_92.wav 有翁仔某宣佈(本調)。 ū ang-á-bóo suan-pòo. Oct 6, 2018_93.wav 有翁仔某宣佈(變調),若是…… ū ang-á-bóo suan-pòo, nā-sī... ``` - [《重訂標點符號手冊》修訂版--破折號](https://language.moe.gov.tw/001/upload/files/site_content/m0001/hau/h10.htm) ## 詞 - 漢字無明確寫法,攏先改做羅馬字。`Hàu資`、`光iànn-iànn`、... [#230](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/230) - 想欲siūnn beh改siūnn-beh [#42](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/42) - 為啥物uī siánn-mi̍h改uī-siánn-mi̍h [#41](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/41) - 多音節動詞 + 著,愛分寫 [#34](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/34) - Le-bóng,教典寫檸檬 [#52](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/52) - `C-kuann` 連,`B, C kuann-pēnn`C分開 - `厝裡`、`庄裡`羅馬字照發音標教典、TJ內ê選擇,漢字攏用`裡` [#255](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/255#event-2413070759) - 漢字`正Káng`,羅馬字`Tsiánn-Káng`,照作者意思 [#116](https://github.com/i3thuan5/Jiboo/issues/116) ### 「遮的」臺羅三款標記 [#51](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/51) 1. tsia--ê 輕聲,這些,屬代名詞 Tsia--ê guá lóng beh the̍h--khì. 2. tsia-ê 變7調,這些,屬指示形容詞,修飾後方N Tsia-ê kué-tsí hōo lí tsia̍h. 3. tsia ê tsia本調,這裡,屬指示形容詞,修飾後方N ### 啥物 [#40](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/40) 1. `啥物`做代詞,秀容`物`口語唸sîng第2調 2. `啥物`+N 做指示詞,秀容`物`口語唸sîng第1調 兩種分開處理: 1. `啥物`做代詞,當做是第8調唸sîng第2調 [#43](https://github.com/Sui-Siann-Dataset/Sui-Siann-Tsit-Tshing/issues/43) `Tse sī siánn-mi̍h?` 3. `啥物`+N 做指示詞,當做第4調再變調,[張裕宏](https://github.com/Sui-Siann-Dataset/Sui-Siann-Tsit-Tshing/issues/45#issuecomment-453004404) `Tse sī siánn-mih lâng?` ### 句中/句尾無仝的羅馬字 #37 | | | 句中 | 句尾 | | --| -------- | -------- | -------- | | 1 | 啥 | siánn | siannh | | 2 | 佗 | tó | toh | | 3 | 毋**過** | kú | - | | 4 | 無愛 | bua̋i | buaih | | 5 | 落去 | lue̋ | lueh | | 6 | 咧 | leh(再變調) | --leh | | 7 | 甲 | kah(再變調) | kah | | 8 | 去 | khì(再變調) | khì | | 9 | 毋**過** | koh(再變調) | - | | 10 | 啥**物** | mih(再變調) | mi̍h | A. `1~3` 句中寫法攏照一般變調 B. `4~5` 句中第9調 C. `6~10` 句中寫法攏照實際發音 D. `1~10` 句尾寫法攏照實際發音 是按怎A kah C行為無kâng? >先照ta̍k-ke慣勢ê寫法,以後才閣講 ### 起去、起來、起的`起`字音 [#89](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/89) [singhong] 因為 Ai-lB ,會因為後壁音節加t,起以外無別ê例,無法度寫出規則。所以若聽著khit就標khit,聽著khi就標khi ### 漢字「趨 / 跙」 [#55](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/55) 照音檔聲調來推斷用趨tshu或跙tshū >承賢回應 >根據台日,「tshū」干焦『滑行』(動詞)一个意思,其他的意思攏是講「tshu」。 >毋過咧,因為走音+方言差,這馬「tshu」、「tsū」、「tshū」真oh分,看隨人的用法,隨个所在的區別、有分、按怎分、無分,逐款情形都有,攏無相仝。 ### 數字文音 - 物件的型號、年份、電話號、信用卡號碼 [#81](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/81) 攏分寫 ``` X-box三六空:sam lo̍k khòng 二空一空年:jī khòng it khòng nî 空八空空,空九二,空空空:khòng pat khòng khòng ``` ### 數字範圍 分寫 > 教典:伊的三兩句話就共咱的感情拆破矣。I ê sann nn̄g kù uē tō kā lán ê kám-tsîng thiah-phuà--ah > ### 數字kah量詞 `個外月`連寫,`半個外月`全拆寫 [#248](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/248#issuecomment-502522029) ### ab仔ab [#127](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/127) > 好命a好命 > naphing口語: 1 7 1 1 7 > 佳哉a佳哉 > 秀容口語:3 1 1 7 3 > 好勢a好勢 > naphing口語:1 1 1 1 3 > 結論: 第2字合(hah8)仔前變調,所以是仔 > 1/28 Naphing已經改 > ### 補語 #### `著`有兩種句型 [#44](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/44#issuecomment-457086557) 1. V-tio̍h N `Thiann-tioh siann` 2. V tio̍h# ADJ `Thiann tioh# tsin kan-khóo` 其中第2種句型有「著、甲、了」 楊秀芳臺語語法稿 [p.169-p.170](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/44#issuecomment-452721133),是標本調。 ``` 「了」、「ka1」、「著」都出現在同樣的動補結構中,三者微妙的差異可從下例獲知: (m) hit4隻馬 # 走了 # 真緊 (n) hit4隻馬 # 走ka1 # 真緊 (o) hit4隻馬 # 走著 # 真緊 (m)在評斷馬跑的結果,(n)在描述馬跑的狀況,(o)在肯定馬跑的能力。 ``` #### 了 ##### 1.(教典)表示動作結束、完畢。或是表示動作的時間狀況。 講了矣。 Kóng-liáu--ah. ##### 5.(教典)用於動詞及補語間,表示動作得到補語的結果。例: 講了真清楚。 Kóng liáu tsin tshing-tshó. #### 過 ##### 1.比較,分寫 你躼過伊。 Lí lò kuè i. ##### 2.表示做了 Guá khuànn-kuè sann pún tsheh. #### 其他字 >失控的台語課你好,有三个問題想欲請教一下~ > 【動詞+ __ +形容詞】 > 敢猶閣有其他的字通塌彼空? > >失控的台語課回答: >有〔[v.]著#~〕、〔[v.]甲~〕、〔[v.]了#~〕、〔[v.]去~〕、〔[v.]一下#~〕這幾種。 ### 起去khí-lì [#66](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/66) #### 句型 1. `Peh khí-lì khuànn-māi`,`khí-lì`口語調是 `1,1` 2. `Peh--khí-lì`,`khí-lì`口語調是`輕聲,輕聲` 3. `V ē/bē/ū/bô khí--lì` - 照唸ê標 - a. `Peh bē khí--lì`,`khí-lì`口語調是`2,輕聲` - b. `Peh bē khì--lì`,`khì-lì`口語調是`3,輕聲` #### 書寫結論 - 1 寫做`khí-lì` - 2 寫做`--khí-lì` - 3-a 寫做`khí--lì` - 3-b `khì--lì` - 1, 2, 3-a, 3-b 漢字攏`起去` #### 理由 - 對`khí`來講,第1調用一般變調解說,所以本調寫2調較合理。 - 對`lì`來講,第1調ē-tàng用再變調解說,所以本調寫sánn調攏合理,按呢咱配合教育部ê khì寫第3調,咱嘛寫第3調`lì`。 - 無法度確定3-b著抑毋著,若有就先照結論標 #### lì 由來 >[name=承賢]khí--lih / khí--lì就是khí--khì(起去)的輕聲變調加上音韻OCP (Obligatory Contour Principle) 原則運作,阻止兩音節使用相同子音(kh)的結果,要寫漢字,也只好寫「起去」了。 #### X去 X來 相關詞 > Tī `Peh A-B khuànn-māi`,A口語調ē-sái唸`第1調`,嘛ē-sái唸一般變調--ê,是tó幾ê? 1. 入去(ji̍p-bi,攏kuân調) 4. 出去 8. 起去 10. 轉去 12. 過去 > Tī `Peh A-B khuànn-māi`,A口語調一定照一般變調--ê,是tó幾ê? 1. **落去** 1. 入來 3. 出來 5. 落來 7. 起來 9. 轉來 11. 過來 ##### 結論 `X去` 除了 `落去` 以外,`X`攏ē-sái變`第1調` ### `有看--eh無?`ê`--eh` [#104](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/104) 1a. `有看--eh無?`:`看`口語第3調,`eh`是固定輕聲抑是隨前輕聲(口語3調) 1b. `有聽--eh無?`(命令):`聽`口語第1調,`eh`是固定輕聲(口語3調) 1c. `有聽--eh無?`(問):`聽`口語第1調,`eh`是隨前輕聲(口語1調)無法度加`-h` 2a. `有看eh豬仔無?`:`看`口語第2調,`eh`口語是第1調,再變調 2b. `有聽eh豬仔聲無?`:`聽`口語第7調,`eh`口語是第1調,再變調 1a ê 用法是講話者有看著物件,欲確定對方敢嘛有聽著,tshan像:「聽講阿塗下晡有來,你有看--eh無?」。所以1a應該kah 1c仝款 1b ê 用法是講一堆代誌,尾仔確定對方有聽著無,tshan像:「明仔載愛會記得倒糞埽,你有聽--eh無?」 1c ê 用法是講話者有聽著聲,欲確定對方敢嘛有聽著,tshan像:「Kan-na有狗仔leh puī,你有聽--eh無?」 #### 率 [#214](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/214#issuecomment-490331726) 結論:彼工佇錄音室討論是就當做收俗音。 理由:這句的作者、咱巡稿、秀容老師攏無掠著,應該是真濟人會按呢唸。 ## 錄音稿斷句 - 有一个完整語意就可斷句。 [#191](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/191) ## 字幕語料庫標記原則 - 記錄羅馬字ê錯誤類型(一種開一條issue,Jiboo專案) - 使用建議(一種開一條issue,Jiboo專案) - 記錄做ê速度(開X點鐘做Y分影片ê羅馬字...) - 若是外語siunn濟,請莫人工補,加狀況「siunn濟」 - 若是電腦無辨識出來羅馬字,請莫人工補,加狀況「無辨識出來羅馬字」 ### 音檔斷句 - 2句中央隔傷濟,無自然,所以分做兩句。 [#169](https://github.com/Sui-Siann-Dataset/Sui-Siann-Dataset/issues/169) - 兩句其實傷倚,按怎切攏袂好,這種情形直接變做一句。 ### 標記原則: - 以「媠聲標記原則」 - 莫標點符號,tī句號抑是tāu號ê所在換逝 - 秀容老師ê音檔,若是奇怪ê標點就改掉,其他維持這馬按呢 - 無kāng人就換逝 - 獨立一逝 - 有1秒以上無人講話ê音樂抑是唱歌,標MUSIC - 有1秒以上市仔聲背景,而且無清楚ê人講話,標SPN - 有5秒以上無聲,標SIL - 其他非人聲,先標NSN。有問題開Jiboo專案 issue
{"metaMigratedAt":"2023-06-14T19:43:39.140Z","metaMigratedFrom":"Content","title":"媠聲標記規則","breaks":true,"contributors":"[{\"id\":\"7e311d89-37f2-4fcd-bf34-8b4b1e89922f\",\"add\":11343,\"del\":1342},{\"id\":\"cf1be61f-5921-4a4c-ab8c-b7f957256dc2\",\"add\":1,\"del\":0},{\"id\":\"3eb98dba-a1dd-4003-bbbf-108e9b666db3\",\"add\":300,\"del\":216}]"}
    1169 views
   owned this note