一、认为GBK目前仍够用
实际上,GBK已经被GB18030取代。到目前为止,最新版是GB18030-2005。
二、认为GB18030不能支持所有Unicode字符
事实上,GB18030支持Unicode的所有码位,也就是0-0x10FFFF,包括未指定任何字符的码位。也就是说,GB18030实际上就是UTF-GBK。
三、认为Unicode不是国家标准编码
实际上,Unicode也是国家标准编码,称作GB13000。到目前为止,最新版是GB13000-2010。其中也包含了UTF-8和UTF-16编码。
四、认为GBK、GB18030使用方便,可兼容传统的UNIX字符处理程序
事实上,这样做有两个问题。
首先,GBK除了首字节必须是0x81-0xFE之外,并没有规定尾字节不能和ASCII冲突。事实上,GBK使用了0x40-0x7E作为尾字节,其中包括
大小写字母,以及@[\]^_`{|}~这11个符号,GB18030又新增了数字0-9作为尾字节。这些尾字节处理不当很容易导致系统出错。
其次,GB2312、GBK、GB18030都没有规定尾字节必须和首字节严格区分,因此搜索某个汉字『刀(B5B6)』时很容易搜索到『档抖(B5B5B6B6)』这两个字中间。
对于这两个问题,Windows的做法是编写程序时改用_mbsstr等专有函数,它们会在遍历字符串时直接跳过尾字节。但是UNIX上大多数程序并没有这样的机制,需要自己实现,或用转义等其它方法避免字符冲突。
最彻底的解决方案,当然是换用UTF-8这种完全兼容UNIX的编码。事实上,我们日常使用的多字节编码中真正兼容UNIX的,也就只有UTF-8这种编码。
为什么UTF-8能够兼容UNIX呢?因为UTF-8规定ASCII范围为0x00-0x7F,首字节必须为0xC2-0xF4,尾字节必须为0x80-0xBF,互不重叠,故不存在上述GBK和GB18030的问题。
200字以内,仅用于支线交流,主线讨论请采用回复功能。