**# h1中文編碼** ## h2由來: ### h3因中文分為簡體中文與繁體中文,兩種大相逕庭的書寫規則,造成文字數目大的特徵,且在最初之時,計算機是以英文單位字元所設計而成,因此,對於中文編碼是必然的結果,建構與英文資訊交流的橋樑,奠定自身的資訊基礎。 ## h2典型字符集演變與介紹: ### h3(1)ASCII(America Standard Code Information Interchange, 美國資訊互換標準程式碼),以羅馬字母表為基礎的編碼系統,表示大小寫英文字母、阿拉伯數字以及特殊符號,無法表示中文字,造就後續BIG-5(別稱為大五碼)、全漢字標準交換碼(CCCII)等等的產生,而其中以最為熟悉且普遍所用為BIG-5,以16位元來表示中文字。 ### h3(2)GB2312字符集(又稱GB2312-80 字符集),全名為《資訊交換用漢字編碼字符集·基本集》,由中國國家標準總局釋出,GB2312是中國國家標準正規的簡體中文字符集。它所收錄的漢字已經覆蓋高達近99.75%的使用頻率,大抵滿足了漢字的計算機運算處理需求,因而在中國大陸和新加坡等地以華人為主流,流傳並廣泛地使用。 ### h3(3)GBK 字符集:由來為GB2312字符集無法處理人名及古漢語等稀罕用字,因此發明GBK 字符集來解決此情況。因為是GB2312的擴充套件,兩者是相容的,因此GB2312中的漢字編碼與GBK中的漢字編碼相同。另外,GBK中還包含繁體字的編碼,它與上述的Big5編碼之間有極大關聯,GBK 字符集擁有Big5編碼中所有的漢字,顯現GBK包含的中文編碼,範圍極為廣闊。 ### h3(4)GB18030 字符集:與GBK 字符集和GB2312字符集兼容,編碼空間非常巨大,最多可定義161萬個字符,能夠支援中國少數民族的文字,不必動用到造字區,就能實現需求。收錄範圍遼闊,包含了繁體中文與日韓漢字,驚奇至令人為之一嘆。