字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,就需要进行
字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为
简体中文和
繁体中文两种不同书写规则的文字,而计算机最初是按英语单
字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。
ASCII字符集
名称由来
ASCII(American Standard Code for Information Interchange,
美国信息互换标准编码)是基于
罗马字母表的一套电脑编码系统。
特点
它主要用于显示现代英语和其他
西欧语言。它是最通用的单
字节编码系统,并等同于国际标准ISO 646。
包含内容
可显示字符:英文大小写字符、阿拉伯数字和西文符号。
技术特征
7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。
扩展字符集
7位编码的字符集只能支持128个字符,为了表示更多的
欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。
ASCII扩展字符集:它是从ASCII字符集扩充出来的,扩充后的符号增加了表格符号、计算符号、希腊字母和特殊的拉丁符号。
GB2312
名称由来
GB2312又称为
GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原
中国国家标准总局发布,1981年5月1日实施。
特点
GB2312是
中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和
新加坡获广泛使用。
包含内容
GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语
西里尔字母在内的682个
全角字符。
技术特征
(1)分区表示:
GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。
两个
字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一
字节为“高字节” ,而称第二字节为“低字节”。
“高位
字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。
编码举例
以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数
计算机程序中,高
字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。
BIG5
名称由来
又称
大五码或五大码,1984年由
台湾财团法人
信息工业策进会和五家
软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
Big5码的产生,是因为当时
台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、
王安码等,彼此不能兼容;另一方面,台湾当局当时尚未推出官方的
汉字编码,而
中国大陆的GB2312编码亦未有收录
繁体中文字。
特点
Big5字符集共收录13,053个中文字,该字符集在
中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。
编码方法
Big5码使用了双
字节储存方法,以两个字节来编码一个字。第一个
字节称为“高位字节”,第二个字节称为“低位字节”。高位
字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。
各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及特殊符号,另外于0xA259-0xA261,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。
局限性
尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。
例如
台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。
GB18030
名称由来
GB18030的全称是GB18030-2000《信息交换用
汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的
汉字编码国家标准,2001年8月31日后在
中国市场上发布的
软件必须符合本标准。
特点
GB 18030字符集标准的出台经过广泛参与和论证,来自国内外知名
信息技术行业的公司,信息产业部和原
国家质量技术监督局联合实施。
GB 18030字符集标准解决汉字、日文假名、朝鲜语和
中国少数民族文字组成的大字符集
计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和
中国少数民族文字。满足中国大陆、
香港、
台湾、
日本和韩国等
东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家
字符编码标准(GB2312,GB13000.1)兼容。
编码方法
GB 18030标准采用单
字节、双字节和四字节三种方式对
字符编码。单
字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双
字节部分,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四
字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。
包含内容
双
字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的
欧元符号等。 四
字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。
Unicode
名称由来
Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的
字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1992年公布1.0.1,最新版本是2020年3月Unicode 13.0.0。
特征
Unicode是一种在计算机上使用的
字符编码。它为每种语言中的每个字符设定了统一并且唯一的
二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
编码方法
Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为 0x0041 和字符“€”的编码为 0x20AC,所以“A”、“€”的编码书写为“U+0041”、“U+20AC”。
UTF-8 编码
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的意思。
UTF-8便于不同的计算机之间使用
网络传输不同语言和编码的文字,使得双
字节的Unicode能够在现存的处理单字节的系统上正确传输。
UTF-8使用可变长度
字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或
西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。
辅助平面字符则使用4
字节。
UTF-8(8-bit Unicode Transformation Format)是一种针对
Unicode的可变长度
字符编码,又称万国码。由Ken Thompson于1992年创建。已经标准化为RFC 3629。UTF-8用1到6个
字节编码UNICODE
字符。用在网页上可以同一页面显示
中文简体繁体及其它
语言(如
英文,日文,韩文)。
比较
UTF-16 和 UTF-32 编码
UTF-32、
UTF-16和 UTF-8 是 Unicode 标准的编码字符集的
字符编码方案,UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码;UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。
汉字编码字符集
汉字编码字符集是按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间都具有一一对应的关系。在信息技术中用于汉字信息的表示、交换、传输、处理、存储、输入及显现。在
国际标准化组织 ISO 的定义中,“无歧义的规则”是很重要的,制定这些规则的目的是为了确保编码的唯一性,避免重码。它包括下列一些内容:
编码目标:专用还是通用,仅仅用于信息交换,还是也可用于信息处理。
编码体系结构,编码的空间的安排。
收字原则:确定收入什么字汇。
排序方式:汉字在字符集中排列的规则。
是否分级:怎样分级。
编码原则:基本上按字形编码。为此需要制定认同或甄别的规则以及对特例的约定。
与其它编码字符集的对应关系。
实际上, 在信息技术中汉字编码字符集无一例外地还包含非汉字的符号与拉丁文、 希腊文、 西里尔文等其它文种的字符。或者与其它更多文种的字符并存于一个庞大的编码字符集。
其他释义
字符集是指用来组织、控制或表示数据项的字母、数字以及计算机能识别的符号。例如,纸带或穿孔卡片上的输入符号,各种输出设备的控制和输出符号,终端设备上的键盘字符以及存储在存储区中,供处理机存、取和识别的符号。
高级语言能识别的,并在语法上有意义的所有字符的集合,称为该语言的字符集。一般微型计算机的BASIC语言字符集,含字符约60个,包括拉丁字母、十进制数码、运算符、圆括号、比较符、标点符号及某些特殊符号($、#等)。其他符号(包括汉字)则可以按规定的办法,作为字符型数据来处理。
各种字符(包括标点符号)要按语法组合成有确切含义的成份,构成数据项、指令、语句以至程序段。计算机语言中各种符号的使用,要比自然语言中更严格。