收藏 分享(赏)

大全集团-两化融合发言稿.doc

上传人:Koalabear 文档编号:1225077 上传时间:2019-12-09 格式:DOC 页数:8 大小:53.50KB
下载 相关 举报
大全集团-两化融合发言稿.doc_第1页
第1页 / 共8页
大全集团-两化融合发言稿.doc_第2页
第2页 / 共8页
大全集团-两化融合发言稿.doc_第3页
第3页 / 共8页
大全集团-两化融合发言稿.doc_第4页
第4页 / 共8页
大全集团-两化融合发言稿.doc_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 第六章 中文信息处理第六章 中文信息处理 概 述概 述 一、中文信息处理一、中文信息处理 计算机科学技术百科全书 ( 清华大学出版社, 1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进 行的加工和操作,包括对字、词、短语、句、篇章的输入、输出 、识别、转换、压缩、存储、检索、分析、理解和生成等各方面 的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与 计算机科学、语言学、数学、信息学、声学等多种学科相 关联的综合性学科。 参考文献参考文献 中文信息处理技术原理与应用,李宝安等,清华 大学出版社, 2005 年

2、 7 月第 1 版 中文信息处理技术教程,朱巧明,清华大学出版 社, 2005 年版 计算语言学概论,俞士汶主编,商务印书馆, 2003 年 9 月第 1 版 计算语言学,刘颖,清华大学出版社, 2002 年版 中国语言文字网 http:/www.china- 中文信息处理中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次: 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解, 推理,翻译等等) 符号层的信息处理符号层的信息处理 拼音文字:小字符集 比

3、较容易 非拼音文字:大字符集 难度很大 汉字是一个大字符集 说文解字(东汉): 9353 字 玉篇(南朝)收录 16,917 字 广韵(宋代)收字 26,194 字 字汇(明朝)收录 33,197 字 康熙字典(清朝)收录 47,043 字 汉语大字典( 1992 年) 5.6 万 中华字海( 1994 年) 8.6 万 拉丁字母只有 26 个符号 斯拉夫字母只有 33 个符号 阿尔明尼亚字母只有 38 个符 号 泰米尔字母只有 36 个符号 缅甸字母只有 52 个符号 泰文字母只有 44 个符号 老挝字母只有 27 个符号 藏文字母只有 35 个符号 韩文字母只有 24 个符号 日文假名只有

4、 48 个符号 符号层的信息处理符号层的信息处理 汉字输入汉字输入 自动输入自动输入键盘输入键盘输入 字形识别字形识别声音识别声音识别 手写体识别手写体识别 印刷体识别印刷体识别 在线手写在线手写 脱机手写脱机手写 整字键盘整字键盘通用键盘通用键盘 主辅式主辅式 感应式感应式 形码形码 音码音码 形音结合码形音结合码 1 2 3 4 5 6 7 8 9 内容层的信息处理内容层的信息处理 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程机器翻

5、译全过程 需要语言知识 ! 中文信息处理的现状和发展趋势中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入 / 字库 / 字处理软件 / 排版 / 内容层的处理目前在词语识别和词性标注方面已经取得 重要进展,句子结构分析和语义分析方面仍有待探索 二、文字信息处理的二、文字信息处理的基本问题基本问题 文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计 算机中存储起来,进行适当处理之后再输出文字等问题。 文字信息的输入 文字信息的输入 文字信息的处理 文字信息的处理 文字信息的输出文字信息的输出 二、文字信息处理的二、文字信息处理的基本

6、问题基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个 固定的数码代表一个字母或文字。 在英文信息中,以 26 个字母作为文字信息处理的单位,因此要对 26 个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一 个整字惟一地确定代表它的数码。 这一数码统称为代码 (code) 在计算机内部处理文字信息时,就像处理数据一样对待。 处理完毕后,再把替代的数码还原成相应的字母或文字。 利用计算机能够调整处理数据的性能,使文字信息处理也 能够分享计算机技术的这一独特优点,从而实现文字信息 处理的高效化。 二、文字信息处理的二、文字信息处理的基本问题基本问题

7、 英文字符的编码标准是 ASCII 码,即美国信息交换标准代 码。这是七位的二进制代码,它是美国国家标准学会 ( ANSI )为计算机的信息交换提出的标准,后来由国际 标准组织( ISO )确定为国际标准字符编码。 为了和国际标准兼容,我国根据它制定了英文字符编码国 家标准,即 GB1988 。其中除了将货币符号置换为人民币 符号外,其他都与 ASCII 码相同。 计算机的键盘原本就是为英文输入设计的,只要按照字母击键 ,就可以输入英文。键盘的译码电路按照所击的键产生英文字 符的 ASCII 码,输入到计算机的内存中。 经过编辑的文本仍然以 ASCII 码表示。输出时,这些代码必须 转换成字符

8、字形的点阵,以便显示或打印。因此,计算机必须 存储每个英文字符、数码以及标点符号的点阵信息。这些点阵 信息构成了所谓“字模库”。字模库的点阵以有点或无点来表 示文字和符号。 汉字信息的计算机处理过程与英文信息处理过程是类似的。不 过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼 容等问题,处理的难度更大。我国经过多年的研究,汉字处理 的基本问题已经解决。 汉字信息处理的基本问题汉字信息处理的基本问题 三、中文信息处理主要研究对象三、中文信息处理主要研究对象 基础研究:汉字字频统计、词频统计、汉语自动分词、句 法属性研究、汉字编码字符集、通用汉字样本库、汉字属 性字典、语料库等 输入技术:

9、中文输入法、中文手写输入、中文语音输入、 光学字符识别等。 输出技术:汉字字模技术(字体库)、汉字激光照排、汉 语语音合成、动态组字等。 外字处理:动态组字、造字、电子书等。 存储技术:汉字库标准中文、字符编码等。 转换技术:繁简转换等 三、中文信息处理主要研究对象三、中文信息处理主要研究对象 信息处理:中文情报检索、中文文本校对、机器翻译、自 然语言理解、中文人机界面、语义网、电子字典、电脑辅 助翻译等 中文化:软件的国际化( internationalization )和本 土化( localization )。 中文编程:目前有两种发展,一种是英文 coding 直接翻 译,以降低开发人

10、员的语言学习成本;一种是根据中文特 点,发展出融合中国人思维模式的新的计算机语言。 为了用 0 、 1 代码串表示汉字,在汉字系统或通信系统之间交换信 息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。 1981 年 5 月,我国国家标准总局颁布信息交换用汉字编码字符 集 (GB 2312-80) ,作为汉字交换码编码的国家标准,简称国家 标准汉字编码,或国标码。 收进该标准的字符共有 7 445 个。其中一级汉字 3 755 个,二级汉 字 3 008 个,共计 6 763 个。一、二级汉字约占近代文献汉字累计 使用频度的 99.99% 。 为便于查找,一级汉字按汉语拼音顺序排列;二

11、级汉字一般不易熟 记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号 、 GB 1988 图形字符集、日文假名、希腊字母、俄文字母、汉语拼 音、注音字符、制表符号等。 四、汉字编码标准 累计使用频度不足 0.001% 的汉字数量接近 1 万个。为了满足计算机 实际应用的需要,我国在 GB 2312-80 的基础上扩大收字的范围,制 定了“汉字内码规范” GBK ,包含了 20 902 个汉字,又称为扩展的 国标码。在 Windows 95/98 和其后的 Windows 2000 中,装入了 GBK 的全部汉字和符合 GBK 和 GB 2312-80 的输入法。 由于汉字的字符多,一个

12、字节八位二进制代码不足以表示所有的常用 的汉字。为了不与西文的 ASCII 码混淆,在微型机汉字系统中,国 标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为 机内码或其他汉字处理代码的依据。 汉字编码标准 汉字国标码就是 GB 2312-80 为汉字规定的代码,也称为交换码。 国标码是汉字编码的国家标准。在 GB 2312-80 代码表中,纵向分为 093 ,共 94 行;横向也是 093 ,共 94 列。行与列分别用七位二进 制码表示,第一字节表示行,第二字节表示列。其值都从 0100001 到 1111110 。这正是 ASCII 码的可打印字符的编码。其范围为十六进 制的 217E 。汉字国标码是将第一字节和第二字节连写而得到的。由 于二进制形式太长,通常用十六进制表示。 例如: 汉字 第一字节 第二字节 十六进制 区位 码 啊 0110000 0100001 3021 1601 保 0110001 0100011 3123 1703 播 0110010 0100101 3225 1805 国标码 国标码还可以表示成区位码的形式。在 GB2312-80 代码 表中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业标准 > 国内标准

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报