关于国标码的几个常见误区 - 科创网

论坛>计算机科学>软件综合>WINDOWS

文号t73948

3372

2

收藏(1)

关于国标码的几个常见误区

acmilan2015/10/11软件综合 IP:四川

一、认为GBK目前仍够用

实际上，GBK已经被GB18030取代。到目前为止，最新版是GB18030-2005。

二、认为GB18030不能支持所有Unicode字符

事实上，GB18030支持Unicode的所有码位，也就是0-0x10FFFF，包括未指定任何字符的码位。也就是说，GB18030实际上就是UTF-GBK。

三、认为Unicode不是国家标准编码

实际上，Unicode也是国家标准编码，称作GB13000。到目前为止，最新版是GB13000-2010。其中也包含了UTF-8和UTF-16编码。

四、认为GBK、GB18030使用方便，可兼容传统的UNIX字符处理程序

事实上，这样做有两个问题。

首先，GBK除了首字节必须是0x81-0xFE之外，并没有规定尾字节不能和ASCII冲突。事实上，GBK使用了0x40-0x7E作为尾字节，其中包括
大小写字母，以及@[\]^_`{|}~这11个符号，GB18030又新增了数字0-9作为尾字节。这些尾字节处理不当很容易导致系统出错。

其次，GB2312、GBK、GB18030都没有规定尾字节必须和首字节严格区分，因此搜索某个汉字『刀(B5B6)』时很容易搜索到『档抖(B5B5B6B6)』这两个字中间。

对于这两个问题，Windows的做法是编写程序时改用_mbsstr等专有函数，它们会在遍历字符串时直接跳过尾字节。但是UNIX上大多数程序并没有这样的机制，需要自己实现，或用转义等其它方法避免字符冲突。

最彻底的解决方案，当然是换用UTF-8这种完全兼容UNIX的编码。事实上，我们日常使用的多字节编码中真正兼容UNIX的，也就只有UTF-8这种编码。

为什么UTF-8能够兼容UNIX呢？因为UTF-8规定ASCII范围为0x00-0x7F，首字节必须为0xC2-0xF4，尾字节必须为0x80-0xBF，互不重叠，故不存在上述GBK和GB18030的问题。

来自：计算机科学 / 软件综合

2

全部只看作者

已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

{{notice.noticeContent}}

~~空空如也

acmilan

千古风流

作者

9年2个月前修改于 9年1个月前 IP:四川

793205

1楼

实际上，在Windows中保存数据有两个最佳选择——
UTF-16LE with BOM：直接读取直接使用，不用转换。
UTF-8 XML：MSXML会自动转换编码，不用自己担心。
面向网络或其它平台时，才需要去使用其它编码。。。

引用

评论

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

千古风流

作者

9年2个月前 IP:四川

793209

2楼

实际上，GB18030是一个平滑过渡方案，而Unicode才是最终方案。

引用

评论

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

想参与大家的讨论？现在就登录或者注册。

所属专业

软件综合

所属分类

WINDOWS

上级专业

计算机科学

同级专业

计算机电子学

acmilan

千古风流

进士学者笔友

文章

461

回复

2934

学术分

4

2009/05/30注册，5年10个月前活动

暂无简介

主体类型：个人

所属领域：无

认证方式：邮箱

IP归属地：未同步

名片私信

作者最新文章

Windows中调用USB不需要写驱动

软件综合 acmilan 7年2个月前

C语言画Mandelbrot和Julia集合（DX11常规加速版）

软件综合 acmilan 7年2个月前

在Windows环境中操作区分大小写的文件/文件夹

软件综合 acmilan 7年2个月前

使用C语言让Windows睡眠/休眠

软件综合 acmilan 7年3个月前

Intel开发者手册能找到的旧版

软件综合 acmilan 7年3个月前

如何让exe基地址不乱跑

软件综合 acmilan 7年3个月前

C语言多步错误处理最好还是使用do-while(0)-break

软件综合 acmilan 7年3个月前

能看懂的Win10支持策略终于出来了

软件综合 acmilan 7年3个月前

Win32环境变量编程

软件综合 acmilan 7年3个月前

Excel2007VBA参考大全

软件综合 acmilan 7年3个月前

相似文章推荐

今天弄了个DVD倍线（假1080p高清）算法

软件综合小俊 15年5个月前

Recent Advancement in RL and Robotics

软件综合 novakon 7年10个月前

调用GPU进行计算

软件综合 acmilan 8年2个月前

【分享】在不同DPI下设计和运行Windows Forms解决方案（不是高分屏也要看）

软件综合 acmilan 8年9个月前

[资源分享]机器学习资料和常用工具汇总

软件综合 Cirno 8年4个月前

数据抓取艺术——以KC网为例

软件综合全桥整流 8个月28天前

【楼下更新】简单省事的3D图形演示程序

软件综合 novakon 12年6个月前

好久没发东西了，这次发个暴力的，SHA-1编码SSE2版，爆破密码专用

软件综合小俊 15年0个月前

控制网络流量规则变化并输出波形——NetWaveOutput

软件综合 ldc 16年1个月前

关于C++中new和delete的特殊用法

软件综合 acmilan 9年7个月前

文件下载

加载中...

{{errorInfo}}

{{downloadWarning}}

你在 {{downloadTime}} 下载过当前文件。

文件名称：{{resource.defaultFile.name}}

下载次数：{{resource.hits}}

上传用户：{{uploader.username}}

所需积分：{{costScores}}，{{holdScores}}下载当前附件免费{{description}}

下载地址：{{l.name}}

积分不足，去充值

文件已丢失

当前账号的附件下载数量限制如下：

时段	个数
{{f.startingTime}}点 - {{f.endTime}}点	{{f.fileCount}}

视频暂不能访问，请登录试试

仅供内部学术交流或培训使用，请先保存到本地。本内容不代表科创观点，未经原作者同意，请勿转载。

预览

音频暂不能访问，请登录试试

支持的图片格式：jpg, jpeg, png

插入公式

温馨提示

1. 公式行内显示(inline)：请使用 $....$ 或 \(....\) 包裹代码

2. 公式独占一行显示(display)：请使用 $$....$$ 或 \[....\] 包裹代码

3. 插入的公式在编辑时不会渲染，请检查无误后再插入。

公式输入

公式预览

$\sum_{i=0}^N\int_{a}^{b}g(t,i)\text{d}t$

评论控制

加载中...

文号：{{pid}}

可查看、可评论

只可查看

不可查看、不可评论

投诉或举报

加载中...

{{tip}}

请选择违规类型：

{{reason.type}}

空空如也

提交成功！

加载中...

详情

推送到专栏从专栏移除

设为匿名取消匿名

查看作者

回复

加入收藏取消收藏

收藏

取消收藏

折叠回复

置顶取消置顶

评学术分

鼓励

设为精选取消精选

管理提醒

编辑

通过审核

评论控制

退修或删除

违规记录

投诉或举报

加入黑名单移除黑名单

查看IP

{{format('YYYY/MM/DD HH:mm:ss', toc)}}