1、第二章第二章 汉字信息在计算机内部表示汉字信息在计算机内部表示主要内容:英文字符在计算机内部表示汉字信息在计算机中表示汉字代码体系汉字排序汉字编码字符集1/382.1 英文字符在计算机内部表示英文字符在计算机内部表示n1.ASCII码码nASCIIASCII码码(America Standard Codefor for Information(America Standard Codefor for Information InterchangeInterchange)美国信息交换标准码,作为数据传输标准)美国信息交换标准码,作为数据传输标准码。早期使用码。早期使用7 7 个位来表示个位来表示
2、英文字母、数字英文字母、数字0909及其它符及其它符号号,现在则使用,现在则使用8 8个位,最多能够给个位,最多能够给256256个字符个字符(包含字母、包含字母、数字、标点符号、控制字符及其它符号数字、标点符号、控制字符及其它符号)分配分配(或指定或指定)数数值。值。2/38nASCIIASCII码字符标准中用码字符标准中用7 7位二位二进制数定义了进制数定义了128128个字符个字符,其中其中9494个为图形字符,个为图形字符,3232个个为控制字符,为控制字符,1 1个为空格字个为空格字符和一个符和一个DelDel键。键。nASCIIASCII编码空间如图所表示,编码空间如图所表示,图中
3、把图中把7 7位二进制数分为位二进制数分为高高3 3位作为列号,低位作为列号,低4 4位位作为行作为行号,并用十六进制表示,从号,并用十六进制表示,从而组成了一个而组成了一个ASCIIASCII编码空编码空间。间。0 1 2 3 4 5 6 70 控控制制字字符符区区1图形字符区23456789ABCDEF3/38n2.扩展扩展ASCII码码n 因为因为ASCIIASCII码只能表示码只能表示9494个字符,所以若需要使计算机个字符,所以若需要使计算机还能够处理其它西文(如德文、法文、西班牙文等),则还能够处理其它西文(如德文、法文、西班牙文等),则必须对必须对ASCIIASCII码进行扩充。
4、码进行扩充。n 最简单方式是采取最简单方式是采取8 8位二进制编码来表示一个扩展位二进制编码来表示一个扩展ASCIIASCII码字符集。码字符集。n 扩展扩展ASCIIASCII码编码空间如图所表示。码编码空间如图所表示。n GL GL图形区用作图形区用作ASCIIASCII码,码,GRGR图形字符区为其它一个西方图形字符区为其它一个西方国家语言文字编码。国家语言文字编码。4/380123456789ABCDEF0C0控制字符区C1控制字符区1GL图形字符区GR图形字符区23456789ABCDEF5/38n 为了尽可能多地使得英文与其它西方语言文字系统兼为了尽可能多地使得英文与其它西方语言文
5、字系统兼容,国际化组织在容,国际化组织在ISO8859ISO8859第第110110部分中定义了新增部分中定义了新增128128个个码元字符编码集。码元字符编码集。n 这这1010个部分分别定义了个部分分别定义了ASCIIASCII码和其扩展字符集。不码和其扩展字符集。不一样扩展字符集用一样扩展字符集用ISO8859ISO8859后跟不一样数字表示。后跟不一样数字表示。n 扩展扩展ASCIIASCII码采取码采取高高4 4位作列号,低位作列号,低4 4位作行号位作行号。6/387/38n3.CJK-Roman n CJK-RomanCJK-Roman是指在中日韩字符编码标准中开发是指在中日韩字
6、符编码标准中开发ASCIIASCII码,码,分别是分别是GB-RomanGB-Roman、CNS-RomanCNS-Roman、JIS-Roman JIS-Roman 和和KS-RomanKS-Roman。CJK-RomanCJK-Roman除以下字符与除以下字符与ASCIIASCII码不一致之外,其它都与码不一致之外,其它都与ASCIIASCII相同相同。码元值ASCIIGB-RomanCNS-RomanJIS-RomanKS-Roman0 x24¥0 x5CW0 x7E 8/382.2 汉字信息在计算机中表示汉字信息在计算机中表示n 为了能使汉字能够在计算机中通行,亚洲国家和地域为了能使汉
7、字能够在计算机中通行,亚洲国家和地域除了制订除了制订CJK-RomanCJK-Roman标准外。国际化标准组织()、标准外。国际化标准组织()、国际电气电子工程师协会()以及各汉字使用国国际电气电子工程师协会()以及各汉字使用国家和地域在计算机技术发展中,也制订了形式多样汉字编家和地域在计算机技术发展中,也制订了形式多样汉字编码字符集。其中最含有代表性是码字符集。其中最含有代表性是ISO/IEC 2022ISO/IEC 2022标准。标准。n 该标准定义了位代码和位代码空间及其代码空间该标准定义了位代码和位代码空间及其代码空间扩充技术。迄今为止,绝大多数计算机系统所采取字符集扩充技术。迄今为止
8、,绝大多数计算机系统所采取字符集都是以此标准作为基础。都是以此标准作为基础。9/38n从从ASCIIASCII码扩展中我们能够得出,假如采取多个位编码,码扩展中我们能够得出,假如采取多个位编码,则除去控制字符区之外,能够取得则除去控制字符区之外,能够取得94*94*9494*94*94个编码空个编码空间。间。n若采取双字节若采取双字节7 7位代码,则为了保持与位代码,则为了保持与ASCIIASCII系统兼容,通系统兼容,通常采取高位置常采取高位置1 1方法来区分汉字代码与方法来区分汉字代码与ASCIIASCII代码。若采取代码。若采取3 3字节字节7 7位代码,则能够用一个字节作为汉字代码,其
9、余位代码,则能够用一个字节作为汉字代码,其余2 2个个7 7位编码作为汉字代码。位编码作为汉字代码。n参考参考ISO/IEC2022ISO/IEC2022标准,中国大陆、中国台湾地域、日本标准,中国大陆、中国台湾地域、日本和韩国等在标准框架下制订了对应字符编码标准。和韩国等在标准框架下制订了对应字符编码标准。10/382.3 汉字代码体系汉字代码体系n1.汉字交换码汉字交换码n 汉字交换码是用于信息交换汉字代码,也称汉字传输汉字交换码是用于信息交换汉字代码,也称汉字传输码,在码,在GB2312GB2312中用双字节表示。它用于汉字信息在计算机中用双字节表示。它用于汉字信息在计算机之间传输。与之
10、间传输。与ASCIIASCII码不一样,汉字这种代码表示普通不码不一样,汉字这种代码表示普通不能直接用于信息处理能直接用于信息处理。11/38n2.汉字处理码汉字处理码n 汉字处理码是用于信息处理汉子代码,也称汉字内码汉字处理码是用于信息处理汉子代码,也称汉字内码或汉字机内码。或汉字机内码。n 汉字内码在不一样汉字操作系统中长度能够不一样。汉字内码在不一样汉字操作系统中长度能够不一样。为了表示汉字数量,同时考虑到汉字信息存放和传输效率为了表示汉字数量,同时考虑到汉字信息存放和传输效率等,通常汉字操作系统用双字节长度表示汉字内码,并把等,通常汉字操作系统用双字节长度表示汉字内码,并把每个字节高位
11、置每个字节高位置1 1。这么系统中。这么系统中ASCIIASCII码字符就能够与汉字码字符就能够与汉字字符区分。字符区分。12/38n3.汉字输入码汉字输入码n 汉字输入码通常指汉字键盘输入编码。依据汉字属性,汉字输入码通常指汉字键盘输入编码。依据汉字属性,汉字输入键盘码能够分为:音码、形码以及音形组合码。汉字输入键盘码能够分为:音码、形码以及音形组合码。依据汉字编码说用字符类别,则能够分别采取依据汉字编码说用字符类别,则能够分别采取2626个英文字个英文字母大键盘编码和采取母大键盘编码和采取1010个素质小键盘编码。汉字输入码经个素质小键盘编码。汉字输入码经过键盘转换程序转换成汉字机内码。过
12、键盘转换程序转换成汉字机内码。n4.汉字字形码汉字字形码n 汉字字形码是表示汉字字形字模数据,通惯用点阵、汉字字形码是表示汉字字形字模数据,通惯用点阵、矢量函数等方式表示。用点阵表示时,汉字字形码就是这矢量函数等方式表示。用点阵表示时,汉字字形码就是这个汉字字形点阵代码。个汉字字形点阵代码。13/38n5.汉字地址码汉字地址码n 汉字地址码是在一个汉字系统中,某一汉字字型信息汉字地址码是在一个汉字系统中,某一汉字字型信息存放在汉字库中逻辑地址编码。存放在汉字库中逻辑地址编码。n 相对于相对于GB2312GB2312中中16*1616*16点阵字库,地址码和汉字码之点阵字库,地址码和汉字码之间关
13、系:间关系:n地址码地址码=(=(内码第一字节内码第一字节A1H)94+(A1H)94+(内码第二字节内码第二字节)323214/38n6.汉字区位码汉字区位码n 汉字区位码既是一个输入码,也是汉字交换码另一个汉字区位码既是一个输入码,也是汉字交换码另一个表示形式。表示形式。n 在在GB2312-80GB2312-80中,交换码、区位码、处理码之间存在着中,交换码、区位码、处理码之间存在着简单转换,设交换码为简单转换,设交换码为JHJH(十六进制),区位码为(十六进制),区位码为QWQW(十(十进制),处理码为进制),处理码为CLCL(十六进制),则:(十六进制),则:n J=Q+32 J=Q
14、+32 再转换为十六进制再转换为十六进制n H=W+32 H=W+32 再转换为十六进制再转换为十六进制n C=J+80H C=J+80Hn L=H+80H L=H+80H 15/38n7.代码页代码页n 不一样国家人使用着不一样语言操作系统。然而,操不一样国家人使用着不一样语言操作系统。然而,操作系统厂商若要依据各个国家和地域使用不一样语言文字作系统厂商若要依据各个国家和地域使用不一样语言文字人开发不一样操作系统,在成本、系统维护与升级等方面人开发不一样操作系统,在成本、系统维护与升级等方面开销太大。为此,微软企业在开发开销太大。为此,微软企业在开发MS-DOSMS-DOS和和Windows
15、3.1Windows3.1各各种产品时,深入将依赖于各详细平台各文种字符集加以整种产品时,深入将依赖于各详细平台各文种字符集加以整理,并对各个详细代码页都赋予一个代号,称作理,并对各个详细代码页都赋予一个代号,称作“代码页代码页ID”ID”。16/382.4汉字排序汉字排序n1.拼音序拼音序n 按照拼音次序对汉字进行排列。按照拼音次序对汉字进行排列。n 为此首先要设计一张汉字与拼音对照表,也要考虑到为此首先要设计一张汉字与拼音对照表,也要考虑到一字多音一字多音特点。特点。n2.笔画序笔画序n 按照汉字书写笔画多少来排序,由少到多或由多到少。按照汉字书写笔画多少来排序,由少到多或由多到少。17/
16、38n3.字符序字符序n 按照每个汉字大写来排序。汉字字符序通常是以按照每个汉字大写来排序。汉字字符序通常是以GB2312-80GB2312-80为标准。为标准。n4.汉字属性数据库汉字属性数据库n 汉字属性数据库是按照字符编码集中汉字以及其属性,汉字属性数据库是按照字符编码集中汉字以及其属性,建立起对应数据库。建立起对应数据库。18/382.5汉字编码字符集汉字编码字符集n 按照一组无歧义规则而定义汉字词汇有序几个称为按照一组无歧义规则而定义汉字词汇有序几个称为汉汉字编码字符集字编码字符集。其中每一个汉字和代码之间含有一一对应。其中每一个汉字和代码之间含有一一对应关系。在信息处理中,汉字编码
17、字符集用于汉字信息表示、关系。在信息处理中,汉字编码字符集用于汉字信息表示、交换、传输、处理、存放、输入及显示。交换、传输、处理、存放、输入及显示。n1.GB2312-80nGB2312-80GB2312-80共收录共收录74457445个汉字及其它字符。个汉字及其它字符。n19861986年国家标准局颁布年国家标准局颁布GB2312-80GB2312-80更正和增补版,简称为更正和增补版,简称为GB6345.1-86 GB6345.1-86 19/38区号字符数量内容说明194图形符号区272数字和标点符号区394n全角GB-Roman字符(全角ASCII码)483平假名586片假名648大
18、小写希腊字符766大小写西里尔字符86326个全角拼音字母和37个注音字母976制表符10-150未安排16-553755一级汉字56-873008二级汉字88-940未安排20/38n2.Big5n Big5Big5是中国台湾地域信息业惯用汉字编码字符集一个是中国台湾地域信息业惯用汉字编码字符集一个代码空间代码空间,可直接用作处理码。可直接用作处理码。n 其编码采取双字节编码,编码范围是第一字节其编码采取双字节编码,编码范围是第一字节A 1-FEA 1-FE,第二字节,第二字节40-7E40-7E,编码空间在一个,编码空间在一个94*15794*157矩阵中,最多矩阵中,最多能够容纳能够容纳
19、1475814758个码元个码元。实际上。实际上Big5Big5中收录了中收录了1349413494个字符,个字符,代码空间以下表所表示。代码空间以下表所表示。21/38区号 字符数内容1157155个图形符号,2个缩写符号21579个度量汉字,9个缩写字符,21个制表符,大小写拉丁符(少w-z),各种数字符号3127小写拉丁字符“w-z”,48个大小写希腊字符,37个注音符,5个声符,33个缩写控制符4-385401一级汉字39-400未使用41-897652二级汉字90-940未使用22/3823/38n3.ISO/IEC 10646n ISO 10646ISO 10646是一个国际标准编
20、号,该标准英文全称为:是一个国际标准编号,该标准英文全称为:Information Technology-Universal Multiple-Information Technology-Universal Multiple-Octet Coded Character SetOctet Coded Character Set,简称,简称UCSUCS。汉字全称为:。汉字全称为:信信息技术息技术-通用多八位编码字符集,亦称大字符集通用多八位编码字符集,亦称大字符集。这一标。这一标准为世界各种主要语文字符准为世界各种主要语文字符(包含繁体及简体汉字字包含繁体及简体汉字字)及附及附加符号,编订统一内
21、码。加符号,编订统一内码。n ISO 10646 ISO 10646标准由国际标准化组织标准由国际标准化组织ISOISO颁布,用来实现颁布,用来实现全球全部文种统一编码。该标准被广泛应用于电子化地表全球全部文种统一编码。该标准被广泛应用于电子化地表示、传输、交换、处理、储存、输入及显现世界上各种语示、传输、交换、处理、储存、输入及显现世界上各种语言书面形式以及附加符号言书面形式以及附加符号。24/38n国际标准化组织于1993年发表 ISO 10646 国际编码标准首个版本,全名是 ISO/IEC 10646 第一部分ISO/IEC 10646-1:1993。它收录了 20902 个表意字符。
22、10月发表了第一部分新版,新增收了6,582个表意字符于扩展区A里。ISO/IEC 10646 第二部分在 年发表,增收了 42711个表意字符于扩展区B里。25/38n USCUSC体系结构基于体系结构基于“多多8 8位位”。即。即4 4个个8 8位。位。n 这这4 4个个8 8位由左而右命名为组八位(位由左而右命名为组八位(G-octetG-octet)、面八位)、面八位(P-(P-octet)octet)、行八位、行八位(R-octet)(R-octet)和位八位和位八位(C-octet)(C-octet)。n ISO10646 ISO10646要求其字符码要求其字符码b32b32必须为
23、必须为0 0,因而整个编码空间,因而整个编码空间可区分为可区分为128128个组(个组(00-7F00-7F),每一组普通由),每一组普通由256256个字面组成个字面组成(00-FF00-FF),每个字面由),每个字面由256256行组成(行组成(00-FF00-FF),每行包含),每行包含256256位(位(00-FF00-FF),为一个编码位置。除此之外,),为一个编码位置。除此之外,ISO10646ISO10646要求每要求每个字面最终两个编码位置保留不用(个字面最终两个编码位置保留不用(FFFEFFFE和和FFFFFFFF)。)。n 所以所以ISO10646ISO10646整个编码空
24、间总共有整个编码空间总共有256*128=32768256*128=32768个字面,个字面,每个字面为每个字面为256*256=65534256*256=65534个编码位置,累计个编码位置,累计21474181122147418112个编个编码位置。码位置。26/38n下列图描述了UCS体系结构。27/38字面(32768)字面(32768)第0组第0字面称为“基本多文种字面”(BMP)辅助字面:24541个,用以收容WG2陆续搜集、整理和编码各国文字。专用字面:8226个,WG2不予要求,保留供使用者自行添加ISO10646 未收录字符。包含00组0F、10和E0-FF共计34个字面,以
25、及组60-7F共8192 个字面。28/38n 当计算机系统只使用当计算机系统只使用BMPBMP字符码时,能够省略组八位和面八位。字符码时,能够省略组八位和面八位。因而将字符由因而将字符由3232位降为位降为1616位。位。n ISO10646 ISO10646全部字面中,当前仅有第全部字面中,当前仅有第0 0、第、第1 1、第、第2 2字面真正收字面真正收录了编码字符。截至当前所搜集、整理得非表意文字和符录了编码字符。截至当前所搜集、整理得非表意文字和符号部分,扣除已编入者,其余全部编入第字面,而表意号部分,扣除已编入者,其余全部编入第字面,而表意文字部分扣除已经编入文字部分扣除已经编入BM
26、PBMP者,其余全部编入第者,其余全部编入第2 2字面。字面。n ISO10646BMP ISO10646BMP编码以下:编码以下:n(1 1)0000-007F0000-007F:基本拉丁字母区。:基本拉丁字母区。n(2 2)0080-00A00080-00A0:控制符区。其中:控制符区。其中0080-009F0080-009F为为C1C1控制区,控制区,00A000A0为软回车。为软回车。n(3 3)00A1-1FFF00A1-1FFF:拼音文字区。收录各种拼音文字字符。:拼音文字区。收录各种拼音文字字符。n(4 4)-28FF-28FF:符号区,收录各种符号,包含标点符号、上下标、:符号
27、区,收录各种符号,包含标点符号、上下标、钱币符号、数字、箭头、数学符号、工程符号等。钱币符号、数字、箭头、数学符号、工程符号等。29/38n(5 5)2E80-33FF2E80-33FF:中日韩符号区。收录康熙字典部首、中:中日韩符号区。收录康熙字典部首、中日韩辅助部首、注音符号等。日韩辅助部首、注音符号等。n(6 6)3400-4DFF3400-4DFF:中日韩认同表意文字扩充:中日韩认同表意文字扩充A A区,总计收区,总计收录录65826582个中日韩汉字。个中日韩汉字。n(7 7)4E00-9FFF4E00-9FFF:中日韩认同表意文字区,总计收录:中日韩认同表意文字区,总计收录2090
28、220902个中日韩汉字。个中日韩汉字。n(8 8)A000-A4FFA000-A4FF:彝族文字区。:彝族文字区。n(9 9)AC00-D7FFAC00-D7FF:韩文拼音组合字区,收录以韩文音符拼:韩文拼音组合字区,收录以韩文音符拼成文字。成文字。n(1010)D800-DFFFD800-DFFF:S S区,专用于区,专用于UTF-16UTF-16。n(1111)E000-F8FFE000-F8FF:专用字区,其内容不予要求,供使用:专用字区,其内容不予要求,供使用者自行添加。者自行添加。n(1212)F900-FAFFF900-FAFF:中日韩兼容表意文字区,总共收录:中日韩兼容表意文字
29、区,总共收录302302个中日韩汉字。个中日韩汉字。n(1313)FB00-FFFDFB00-FFFD:文字表现形式区,收录组合拉丁文字、:文字表现形式区,收录组合拉丁文字、希伯来文等。希伯来文等。30/3831/38n4.GBK编码编码n GBKGBK是在是在GB2312-80GB2312-80基础上增加了基础上增加了ISO10646-1ISO10646-1:19931993汉汉字。主要包含以下几个部分:字。主要包含以下几个部分:GB2312-80 GB2312-80 中汉字,以及中汉字,以及GB6345.1-86GB6345.1-86中更正和增补汉字;中更正和增补汉字;GB/GB/1234
30、5-9012345-90中非汉中非汉字;字;1424014240个附加汉字和个附加汉字和166166个附加符号。个附加符号。n 在在GBKGBK标准中,标准中,GBK/1GBK/1和和GBK/5GBK/5为非汉字图形字符区,为非汉字图形字符区,GBK/2GBK/2、GBK/3GBK/3和和GBK/4GBK/4为汉字区,另外还有为汉字区,另外还有3 3个用户自定义个用户自定义区,有区,有18941894个码元位置。个码元位置。n GBK GBK标准是对以前多个标准发展,并与标准是对以前多个标准发展,并与GB2312-80GB2312-80保持保持向上兼容。各个区中内容以下表所表示。向上兼容。各个
31、区中内容以下表所表示。32/38编码定义区字符数内容GBK/1717n来自GB2312-80和GB/T12345-90中非汉字GBK/26763n来自GB2312-80汉字GBK/36080n来自 ISO10646-1:1993汉字GBK/48160n来自 ISO10646-1:19938059个汉字和101个附加汉字GBK/5166n来自Big5非汉字以及其它字符33/3834/3835/38n5.GB18030-n 国家标准国家标准GB18030-GB18030-信息交换用汉字编码字符集信息交换用汉字编码字符集 基基本集扩充是我国继本集扩充是我国继GB2312-1980GB2312-198
32、0和和GB13000-1993GB13000-1993之后最之后最主要汉字编码标准,是未来我国计算机系统必须遵照基础主要汉字编码标准,是未来我国计算机系统必须遵照基础性标准之一。性标准之一。n 中国大陆以双字节编码中国大陆以双字节编码GBGB已无法容纳新增字符,所以,已无法容纳新增字符,所以,GB18030-GB18030-编码标准就在原来编码标准就在原来GB2312-1981GB2312-1981编码和编码和GBKGBK编码标编码标准基础上进行扩充,增加了四字节(准基础上进行扩充,增加了四字节(3232位)部分编码。此位)部分编码。此标准能够完全对应标准能够完全对应ISO10646ISO10
33、646全部字面,现阶段全部字面,现阶段GB18030GB18030收收录了在录了在ISO10646ISO10646基本面字面全部汉字,再整合基本面字面全部汉字,再整合GBKGBK汉字后汉字后到达了到达了2748427484个汉字。总编码空间超出个汉字。总编码空间超出150150万个码位。万个码位。36/38nGB18030GB18030标准中采取单字节、双字节和四字节三种方式对字符标准中采取单字节、双字节和四字节三种方式对字符进行编码,其中:进行编码,其中:n单字节使用单字节使用00-7F00-7F码位(对应于码位(对应于ASCIIASCII码对应码位);码对应码位);n双字节部分,首位字节码
34、是双字节部分,首位字节码是81-FE81-FE,尾字节码位是,尾字节码位是40-7E40-7E和和80-80-FEFE;n四字节部分使用四字节部分使用30-3930-39作为对双字节编码扩充后缀。这么扩充作为对双字节编码扩充后缀。这么扩充四字节编码,其范围是四字节编码,其范围是81308130-FE39FE3981308130-FE39FE39。其中第一、三字。其中第一、三字节编码码位为节编码码位为81-FE81-FE,第二、四字节编码码位均是,第二、四字节编码码位均是30-3930-39。n其中四字节编码次序是其中四字节编码次序是0 x81308130-0 x80308139;0 x8130
35、8230-0 x81308130-0 x80308139;0 x81308230-0 x81308239;0 x8130FE30-0 x8130FE39;0 x81318130-0 x8131-0 x81308239;0 x8130FE30-0 x8130FE39;0 x81318130-0 x8131-8139;0 x8131FE30-0 x8131FE39;0 x82308130-0 x82308139;8139;0 x8131FE30-0 x8131FE39;0 x82308130-0 x82308139;0 xFE308130-0 xFE308139;0 xFE39FE30-0 xFE
36、39FE390 xFE308130-0 xFE308139;0 xFE39FE30-0 xFE39FE3937/38n在在GB18030-200编码中,单字节编码收录了编码中,单字节编码收录了GB-Roman全部全部128个字符;个字符;n 双字节部分收录了双字节部分收录了:n(1 1)GB13000.1-1993GB13000.1-1993中全部中全部CJKCJK统一汉字字符;统一汉字字符;n(2 2)GB13000.1-1993CJKGB13000.1-1993CJK兼容区挑选出来兼容区挑选出来2121个汉字;个汉字;n(3 3)GB13000.1-1993GB13000.1-1993中收
37、录而中收录而GB2312GB2312中未收录中国台湾地域使用图形字中未收录中国台湾地域使用图形字符符139139个;个;n(4 4)GB13000.1-1993GB13000.1-1993收录其它字符收录其它字符3131个;个;n(5 5)GB12345-90GB12345-90竖排标点符号竖排标点符号1919个;个;n(6 6)GB2312-80GB2312-80中非汉字符号;中非汉字符号;n(7 7)GB2312-80GB2312-80未收录未收录1010个小写罗马数字;个小写罗马数字;n(8 8)GB2312-80GB2312-80收录带音调汉语拼音收录带音调汉语拼音5 5个;个;n(9 9)汉字数字)汉字数字“”“”、B B表义文字描述符表义文字描述符1313个;个;n(1010)增补汉字和部首)增补汉字和部首/构件构件8080个;个;n(1111)双字节欧元符号。)双字节欧元符号。n GB18030-四字节编码部分收录了双字节汉字之外包含了四字节编码部分收录了双字节汉字之外包含了CJK统一汉字扩充统一汉字扩充A集在内集在内GB13000.1-1993中全部字符。中全部字符。38/38