# 中文單字、詞語、成語資料庫搜集 > [name=wa.__.wa] :::info 因為想製作中文文字遊戲,要找單字資料庫,以及對應的解釋意涵,所以把資訊整理在這邊跟轉檔成比較好操作的檔案格式。 ::: 完整檔案: https://github.com/wastu01/chinese_dictionary_collection 檔案結構如下:  ## 資料來源 ### 一、萌典(g0v 計畫) - **專案連結:** - [g0v/moedict-webkit](https://github.com/g0v/moedict-webkit) - [g0v/moedict-data](https://github.com/g0v/moedict-data) - [g0v/moedict-process](https://github.com/g0v/moedict-process) - **授權方式:** [CC0 1.0 公眾領域貢獻宣告](https://creativecommons.org/publicdomain/zero/1.0/deed.zh_TW) - **資料內容:** - 「重編國語辭典(修訂本)」完整詞條清單 - 「國語辭典簡編本」詞條發音清單 - `dict-cat.json`:依主題分類的資料 --- ### 二、教育部國語辭典公眾授權網 - **官方授權網站:** [https://language.moe.gov.tw/001/Upload/Files/site_content/M0001/respub/index.html](https://language.moe.gov.tw/001/Upload/Files/site_content/M0001/respub/index.html) - **授權方式:** 創用 CC「姓名標示-禁止改作」3.0 台灣版 - **原始格式:** `.xlsx`,需轉換為 JSON。 #### 各資料集說明: ##### 成語典 - **對象:** 教師與學生。 - **特色:** 含釋義、音讀、典故原文、白話譯注、用法說明與例句。 - **檔案名稱:** `dict_idioms_2020_20250924.xlsx` - **附註:** `char` 資料夾含字圖,功能待確認。 ##### 重編國語辭典(修訂本) - **對象:** 對歷史語言有興趣的研究者。 - **特色:** 記錄中古至現代詞語,附古典文獻書證與多音讀。 - **備註:** 部分字元無法正確轉出。 ##### 國語辭典簡編本 - **特色:** - 多媒體辭典,含發音與圖片。 - 以字詞頻統計為依據,語體淺白。 - 聲音資料依《國語一字多音審訂表》製作。 - **內容:** - 包含單字與詞語的釋義、發音檔、圖片檔。詞目全文聲音檔僅儲存 001 資料集,002~005 不明原因無法解壓縮 ##### 國語小字典 - **對象:** 國小學童與教師。 - **特色:** - 含例詞、例句、查詢索引。 - 僅收常用字音。 - **備註:** 解釋欄位中有 `&&` 字元,未知原因的資料。 --- 其他額外找到的資料: ### 韻腳大師(爽典) - **網站:** [https://infoqme.com/dict/](https://infoqme.com/dict/) - **資料來源:** 採用「重編國語辭典修訂本」資料。 ## 簡體中文資料來源 ### 一、中华新华字典数据库 - **專案連結:** [https://github.com/pwxcoo/chinese-xinhua](https://github.com/pwxcoo/chinese-xinhua) - **授權:** 未明確標註(資料來自多網站爬取)。 - **特色:** - 收錄大量字詞資料。 - 含歇後語、謎語,可用於猜謎或語文遊戲。 ### 二、汉语拼音辞典 - **專案連結:** [https://github.com/mapull/chinese-dictionary](https://github.com/mapull/chinese-dictionary) - **授權:** MIT License - **特色:** 有提供常用字拼音資料集 --- ## 轉檔 本專案提供四支轉檔腳本,將 `.xlsx` 轉為 JSON,並在 `data_converted/` 鏡像來源的路徑結構。 通用選項 - `sources`:檔案或資料夾。若為資料夾,會遞迴處理所有 `.xlsx`(略過 `~$*.xlsx`)。 - `--output-dir`:輸出根目錄,預設 `data_converted`。 - `--overwrite`:覆寫已存在的 JSON。 - `--indent <n>`:可讀排版,如 `--indent 2`;未指定則輸出緊湊格式。 指令範例 - 國語辭典簡編本: - `python scripts/dict_concised_convert.py --overwrite --indent 2` - 國語小字典: - `python scripts/dict_mini_convert.py --overwrite --indent 2` - 成語典: - `python scripts/dict_idiom_convert.py --overwrite --indent 2` - 重編國語辭典修訂本: - `python scripts/dict_revised_convert.py --overwrite --indent 2` 輸出 JSON 結構 - `source`:來源檔的相對路徑 - `sheet`:工作表名稱 - `index`:工作表順序(0 起算) - `records`:列資料(欄名保留原始標題) 注意事項 - 讀取時使用 `dtype=str` 以保留前導零。 - 會正規化換行為 `\n`,並移除前後空白及不換行空白字元。 - 若活頁簿名稱或工作表名稱含特殊字元,輸出檔名會自動安全化。 --- ## 授權聲明 本專案僅進行資料整理與格式轉換,沒有更改原始內容。 使用時請遵守各資料來源授權條款。 | 資料來源 | 授權方式 | |-----------|-----------| | g0v/moedict 系列 | CC0 1.0 公眾領域 | | 教育部國語辭典公眾授權網 | CC BY-ND 3.0 TW | | 其他開放資料庫 | 依原專案標註為準 | --- ## 專案結構 ```bash . ├── data_converted/ # 轉檔後 JSON │ ├── 國語小字典/ │ ├── 國語辭典簡編本/ │ ├── 重編國語辭典修訂本/ │ └── 成語典/ ├── 國語小字典/ # 原始資料(xlsx) ├── 國語辭典簡編本/ ├── 重編國語辭典修訂本/ ├── 成語典/ ├── scripts/ │ ├── dict_concised_convert.py # 簡編本轉檔 │ ├── dict_mini_convert.py # 國語小字典轉檔 │ ├── dict_idiom_convert.py # 成語典轉檔 │ └── dict_revised_convert.py # 重編本轉檔 ├── requirements.txt ├── 腳本.md └── README.md ``` 網頁遊戲: https://wastu01.github.io/Chinese_Wordbomb/  目前進度:https://docs.google.com/document/d/1CGkAbbTZCINa-pF4idxS0LFFWCHu8UbEOGN68IiWiZU/edit?usp=sharing
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.