GBK全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification) ,
中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,
国家技术监督局标准化司、
电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为
技术规范指导性文件。2000年已被
GB18030-2000《信息交换用 汉字编码字符集 基本集的扩充》国家强制标准替代。2005年GB18030-2005发布,替代了GB18030-2000。
基本含义
GBK 向下与 GB 2312 编码兼容,向上支持
ISO 10646.1
国际标准,是前者向后者
过渡过程中的一个承上启下的产物。ISO 10646 是
国际标准化组织 ISO 公布的一个编码标准,即 Universal Multilpe-Octet Coded Character Set(简称UCS),大陆译为《
通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与
Unicode 组织的 Unicode 编码完全兼容。ISO 10646.1 是该标准的第一部分《体系结构与基本多文种平面》。我国 1993 年以 GB 13000.1
国家标准的形式予以认可(即 GB 13000.1 等同于 ISO 10646.1)。
GBK编码,是在
GB2312-80标准基础上的
内码扩展规范,使用了双字节
编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容
GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准
GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年10月制定, 1995年12月正式发布,中文版的
WIN95、WIN98、
WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN 7等都支持GBK编码方案。
代码与缩写
1、原gb2312 HTML编码标签代码如下:
2、可以缩写为或
3、gbk简写截图(图1)
4、缩写
兼容性:所有浏览器均兼容,无论新旧版本IE还是不同品牌浏览器均兼容。至于GBK编码简写时候编码填写为gb2312还是填写为gbk,DIV CSS认为没有什么区别,均可。为了符合大家都使用gbk
字符编码,大家可以写为“gb2312”。
知识链接
编码,是指以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。和中文字库有关的编码标准有:国标
GB码、GBK码、港台
BIG-5码等,不同编码的汉字字库都与汉字的应用有密切关系。
很多人在使用过程中,发现字不够用,因为大家使用的主要是GB编码字库,此编码标准只收录了6763个常用汉字,而GB字库以外大量汉字,只能通过方正
女娲补字软件拼字或其它造字程序补字。尽管补出的汉字在字形上满足需要,但在字体风格、大小、结构方面难以协调统一,而采用手工贴图的方式补字,更不雅观。进而言之,如果用户建立信息系统,或需要查询新闻、出版内容时,靠补字是无法实现的。方正开发的GBK字库,将极大地缓解缺字现象。
从GB字库扩充到GBK字库,增加了1万4千多字。
北大方正从1996年投入大量人力,开始做黑、宋、仿、楷GBK字库,并于1998年4月成为第一家通过
国家标准认证部门组织的GBK字库鉴定的专业厂商。北大方正已将全部字体转换成GBK字库,共46款,其中18款字数达21003个,是拥有GBK字库款数最多的厂商。
ISO 10646 是一个包括世界上各种语言的
书面形式以及
附加符号的
编码体系。其中的汉字部分称为“
CJK 统一汉字”(C 指中国,J 指日本,K 指朝鲜)。而其中的中国部分,包括了源自中国大陆的
GB 2312、GB 12345、《
现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的 CNS 11643 标准中第 1、2 字面(基本等同于 BIG-5 编码)、第 14 字面的汉字和符号。
相关概念
编码方式
经实际测试和查阅文档,GBK是采用单双字节
变长编码,英文使用单字节编码,完全兼容ASCII字符编码,中文部分采用双字节编码。
字汇
GBK 规范收录了 ISO 10646.1 中的全部
CJK 汉字和符号,并有所补充。具体包括:
1. GB 2312 中的全部汉字、非汉字符号。
2. GB 13000.1-1993 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
3. 《
简化字总表》中未收入 GB 13000.1 的 52 个汉字。
4. 《
康熙字典》及《
辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
6. BIG-5 中未被
GB 2312 收入、但存在于 GB 13000.1 中的 139 个
图形符号。
7. GB 12345 增补的 6 个拼音符号。
8. 汉字“○”。
9. GB 12345 增补的 19 个
竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
11. GB 13000.1 收入的 31 个 IBM OS/2
专用符号。
12.未录入《
新华字典》上的一些字,如“韡”的简体。
分配及顺序
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F
一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。
全部编码分为三大部分:
1. 汉字区。包括:
a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原
顺序排列。
b. GB 13000.1 扩充汉字区。包括:
(1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
(2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《
康熙字典》的页码/字位排列。
2. 图形符号区。包括:
a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个
小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。
3. 用户自定义区:分为(1)(2)(3)三个小区。
(1) AAA1-AFFE,码位 564 个。
(2) F8A1-FEFE,码位 658 个。
(3) A140-A7A0,码位 672 个。
第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
字形
GBK 对字形作了如下的规定:
1. 原则上与 GB 13000.1 G列(即源自中国大陆法定标准的汉字)下的字形/笔形保持一致。
2. 在 CJK 汉字认同规则的总框架内,对所有的 GBK 编码汉字实施“无
重码正形”(“GB 化”);即在不造成重码的前提下,尽量采用中国
新字形。
3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字,在 GBK 码位上暂安放
旧字形。这样,在许多情况下 GBK 收入了同一汉字的新旧两种字形。
4. 非汉字符号的字形,凡 GB 2312 已经包括的,与 GB 2312 保持一致;超出 GB 2312 的部分,与 GB 13000.1 保持一致。
实践应用
伴随GBK字库的推广使用,中国新华通讯社于2000年1月1日起开始使用GBK编码向各
新闻单位播发
新闻稿。2000年4月1日起,
中国银行业开始推行“
储蓄实名制”。 同时,各种出版物已开始向网络化发展,网上
发布新闻、网络出版已是大势所趋,通过
网络传播信息的广度和深度对汉字使用提出了更高要求,GBK字库是缓解人名和地名等
冷僻字的“当然之选”。
北大方正已为广大用户使用GBK字库做好了充分准备,其出版系统已全面支持GBK字库,如
方正书版9.0、
方正飞腾从1.0版本、世纪RIP从1.0版本开始就支持GBK字库,用户的补
字量将大大降低。方正GBK字库的使用非常便捷。排版软件方面,Windows上大多数
文字处理软件,如MS Office、PageMaker、
金山WPS等
均已支持GBK字库,方正书版9.0、方正飞腾3.6和方正世纪RIP完全支持GBK字库。输入法方面,除了Windows上的
全拼、
王码五笔等主流输入法支持GBK字库外,北大方正还专门为GBK的输入制作了一本GBK
内码字典,用户可以用查字典的方法很快找到汉字的GBK编码完成录入。