# 中文單字、詞語、成語資料庫搜集 > [name=wa.__.wa] :::info 因為想製作中文文字遊戲,要找單字資料庫,以及對應的解釋意涵,所以把資訊整理在這邊跟轉檔成比較好操作的檔案格式。 ::: 完整檔案: https://github.com/wastu01/chinese_dictionary_collection 檔案結構如下:  ## 資料來源 ### 一、萌典(g0v 計畫) - **專案連結:** - [g0v/moedict-webkit](https://github.com/g0v/moedict-webkit) - [g0v/moedict-data](https://github.com/g0v/moedict-data) - [g0v/moedict-process](https://github.com/g0v/moedict-process) - **授權方式:** [CC0 1.0 公眾領域貢獻宣告](https://creativecommons.org/publicdomain/zero/1.0/deed.zh_TW) - **資料內容:** - 「重編國語辭典(修訂本)」完整詞條清單 - 「國語辭典簡編本」詞條發音清單 - `dict-cat.json`:依主題分類的資料 --- ### 二、教育部國語辭典公眾授權網 - **官方授權網站:** [https://language.moe.gov.tw/001/Upload/Files/site_content/M0001/respub/index.html](https://language.moe.gov.tw/001/Upload/Files/site_content/M0001/respub/index.html) - **授權方式:** 創用 CC「姓名標示-禁止改作」3.0 台灣版 - **原始格式:** `.xlsx`,需轉換為 JSON。 #### 各資料集說明: ##### 成語典 - **對象:** 教師與學生。 - **特色:** 含釋義、音讀、典故原文、白話譯注、用法說明與例句。 - **檔案名稱:** `dict_idioms_2020_20250924.xlsx` - **附註:** `char` 資料夾含字圖,功能待確認。 ##### 重編國語辭典(修訂本) - **對象:** 對歷史語言有興趣的研究者。 - **特色:** 記錄中古至現代詞語,附古典文獻書證與多音讀。 - **備註:** 部分字元無法正確轉出。 ##### 國語辭典簡編本 - **特色:** - 多媒體辭典,含發音與圖片。 - 以字詞頻統計為依據,語體淺白。 - 聲音資料依《國語一字多音審訂表》製作。 - **內容:** - 包含單字與詞語的釋義、發音檔、圖片檔。詞目全文聲音檔僅儲存 001 資料集,002~005 不明原因無法解壓縮 ##### 國語小字典 - **對象:** 國小學童與教師。 - **特色:** - 含例詞、例句、查詢索引。 - 僅收常用字音。 - **備註:** 解釋欄位中有 `&&` 字元,未知原因的資料。 --- 其他額外找到的資料: ### 韻腳大師(爽典) - **網站:** [https://infoqme.com/dict/](https://infoqme.com/dict/) - **資料來源:** 採用「重編國語辭典修訂本」資料。 ## 簡體中文資料來源 ### 一、中华新华字典数据库 - **專案連結:** [https://github.com/pwxcoo/chinese-xinhua](https://github.com/pwxcoo/chinese-xinhua) - **授權:** 未明確標註(資料來自多網站爬取)。 - **特色:** - 收錄大量字詞資料。 - 含歇後語、謎語,可用於猜謎或語文遊戲。 ### 二、汉语拼音辞典 - **專案連結:** [https://github.com/mapull/chinese-dictionary](https://github.com/mapull/chinese-dictionary) - **授權:** MIT License - **特色:** 有提供常用字拼音資料集 --- ## 轉檔 本專案提供四支轉檔腳本,將 `.xlsx` 轉為 JSON,並在 `data_converted/` 鏡像來源的路徑結構。 通用選項 - `sources`:檔案或資料夾。若為資料夾,會遞迴處理所有 `.xlsx`(略過 `~$*.xlsx`)。 - `--output-dir`:輸出根目錄,預設 `data_converted`。 - `--overwrite`:覆寫已存在的 JSON。 - `--indent <n>`:可讀排版,如 `--indent 2`;未指定則輸出緊湊格式。 指令範例 - 國語辭典簡編本: - `python scripts/dict_concised_convert.py --overwrite --indent 2` - 國語小字典: - `python scripts/dict_mini_convert.py --overwrite --indent 2` - 成語典: - `python scripts/dict_idiom_convert.py --overwrite --indent 2` - 重編國語辭典修訂本: - `python scripts/dict_revised_convert.py --overwrite --indent 2` 輸出 JSON 結構 - `source`:來源檔的相對路徑 - `sheet`:工作表名稱 - `index`:工作表順序(0 起算) - `records`:列資料(欄名保留原始標題) 注意事項 - 讀取時使用 `dtype=str` 以保留前導零。 - 會正規化換行為 `\n`,並移除前後空白及不換行空白字元。 - 若活頁簿名稱或工作表名稱含特殊字元,輸出檔名會自動安全化。 --- ## 授權聲明 本專案僅進行資料整理與格式轉換,沒有更改原始內容。 使用時請遵守各資料來源授權條款。 | 資料來源 | 授權方式 | |-----------|-----------| | g0v/moedict 系列 | CC0 1.0 公眾領域 | | 教育部國語辭典公眾授權網 | CC BY-ND 3.0 TW | | 其他開放資料庫 | 依原專案標註為準 | --- ## 專案結構 ```bash . ├── data_converted/ # 轉檔後 JSON │ ├── 國語小字典/ │ ├── 國語辭典簡編本/ │ ├── 重編國語辭典修訂本/ │ └── 成語典/ ├── 國語小字典/ # 原始資料(xlsx) ├── 國語辭典簡編本/ ├── 重編國語辭典修訂本/ ├── 成語典/ ├── scripts/ │ ├── dict_concised_convert.py # 簡編本轉檔 │ ├── dict_mini_convert.py # 國語小字典轉檔 │ ├── dict_idiom_convert.py # 成語典轉檔 │ └── dict_revised_convert.py # 重編本轉檔 ├── requirements.txt ├── 腳本.md └── README.md ``` 網頁遊戲: https://wastu01.github.io/Chinese_Wordbomb/  目前進度:https://docs.google.com/document/d/1CGkAbbTZCINa-pF4idxS0LFFWCHu8UbEOGN68IiWiZU/edit?usp=sharing
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up