关于国标码的几个常见误区
acmilan2015/10/11软件综合 IP:四川
一、认为GBK目前仍够用

实际上,GBK已经被GB18030取代。到目前为止,最新版是GB18030-2005。

二、认为GB18030不能支持所有Unicode字符

事实上,GB18030支持Unicode的所有码位,也就是0-0x10FFFF,包括未指定任何字符的码位。也就是说,GB18030实际上就是UTF-GBK。

三、认为Unicode不是国家标准编码

实际上,Unicode也是国家标准编码,称作GB13000。到目前为止,最新版是GB13000-2010。其中也包含了UTF-8和UTF-16编码。

四、认为GBK、GB18030使用方便,可兼容传统的UNIX字符处理程序

事实上,这样做有两个问题。

首先,GBK除了首字节必须是0x81-0xFE之外,并没有规定尾字节不能和ASCII冲突。事实上,GBK使用了0x40-0x7E作为尾字节,其中包括
大小写字母,以及@[\]^_`{|}~这11个符号,GB18030又新增了数字0-9作为尾字节。这些尾字节处理不当很容易导致系统出错。

其次,GB2312、GBK、GB18030都没有规定尾字节必须和首字节严格区分,因此搜索某个汉字『刀(B5B6)』时很容易搜索到『档抖(B5B5B6B6)』这两个字中间。

对于这两个问题,Windows的做法是编写程序时改用_mbsstr等专有函数,它们会在遍历字符串时直接跳过尾字节。但是UNIX上大多数程序并没有这样的机制,需要自己实现,或用转义等其它方法避免字符冲突。

最彻底的解决方案,当然是换用UTF-8这种完全兼容UNIX的编码。事实上,我们日常使用的多字节编码中真正兼容UNIX的,也就只有UTF-8这种编码。

为什么UTF-8能够兼容UNIX呢?因为UTF-8规定ASCII范围为0x00-0x7F,首字节必须为0xC2-0xF4,尾字节必须为0x80-0xBF,互不重叠,故不存在上述GBK和GB18030的问题。
来自:计算机科学 / 软件综合
2
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也
acmilan 作者
8年8个月前 修改于 8年7个月前 IP:四川
793205
实际上,在Windows中保存数据有两个最佳选择——
UTF-16LE with BOM:直接读取直接使用,不用转换。
UTF-8 XML:MSXML会自动转换编码,不用自己担心。
面向网络或其它平台时,才需要去使用其它编码。。。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
acmilan作者
8年8个月前 IP:四川
793209
实际上,GB18030是一个平滑过渡方案,而Unicode才是最终方案。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

所属专业
所属分类
上级专业
同级专业
acmilan
进士 学者 笔友
文章
461
回复
2934
学术分
4
2009/05/30注册,5年3个月前活动
暂无简介
主体类型:个人
所属领域:无
认证方式:邮箱
IP归属地:未同步
文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}