Try   HackMD

Notes:Excel 開啟簡體中文檔案亂碼解決方式

〔如何拯救亂碼內文〕

開啟某些 .csv 檔案時會發現內文呈現一片亂碼,原因是預設開啟的編碼方式跟檔案當初編寫儲存時的編碼方式不相同。在繁體中文的 Windows 系統中(Big5)開啟中國的簡體檔案(GBK)會因為編碼方式不同而導致檔案內文亂碼。

解決方法是先將該亂碼 .csv 檔案轉存為 .txt 記事本檔後,用記事本開啟該檔案,更改原先預設的 ANSI 編碼方式為跨平台兼容的 UTF-8,儲存好修正編碼後的 .txt,回頭進到 Excel 裡開啟這份文字文件,就不會是亂碼內文了。

.csv 通常是用逗號或是 Tab 鍵分隔資料欄位的檔案格式,一份用逗號或Tab 鍵分隔的 .txt 檔案用 Excel 開啟時,會自動詢問你是否要以特定分隔符來剖析欄位,按照你的檔案原先分隔方式選擇好剖析方法就可以正常開啟了。


〔什麼是 ANSI 編碼〕

ANSI 為使用多個字節來代表一個字符的各種漢字擴展編碼方式,不同的國家和地區製定了不同的編碼標準,不同 ANSI 編碼之間彼此互不兼容。Windows 系統中,對應當前系統 locale 的遺留編碼分別為:

  • 簡體中文 Windows 系統:GB18030、GBK
  • 繁體中文 Windows 系統:Big5
  • 日文 Windows 系統:JIS

跨平台兼容性最好的編碼方式為使用專業編輯器保存「不帶 BOM 的 UTF-8」。

〔什麼是 UTF-8 編碼〕

UTF-8(8-bit Unicode Transformation Format)是一種針對 Unicode 的可變長度字元編碼。它可以用一至四個位元組對 Unicode 字元集中的所有有效編碼點進行編碼,屬於 Unicode 標準的一部分,向下相容 ASCII 碼。目前是電子郵件、網頁通用的優先編碼方式

BOM(字節順序標記)是為UTF-16和UTF-32準備的,在 Windows 系統中儲存檔案的編碼方式中有兩種可選,「UTF-8」和「帶BOM的UTF-8」的區別就是有沒有BOM。然而「不帶 BOM 的 UTF-8」才是通用標準形式。在 UTF-8 檔案前加上 BOM 是 Windows 系統的特有習慣。UTF-8 的網頁代碼不應該使用 BOM ,否則常常會出錯。


: : 2021.05.01 : : 與松 withhhsong : :

tags: notes withhhsong excel