无字库智能造字系统在计算机上的实现.docx

资源描述

1、硕士学位论文无字库智能造字系统在计算机上的实现作者姓名黄坚学科专业模式识别与智能系统指导教师皮佑国教授所在学院自动化科学与工程学院论文提交日期2010年5月16日The realization of Chinese character intelligent formation system without font on computerA Dissertation Submitted for the Degree of MasterCandidate：Huang Jian Supervisor：Prof. Pi YouguoSouth China University of Techn

2、ologyGuangzhou, China分类号：TP317 学校代号：10561学号：200720111363 华南理工大学硕士学位论文无字库智能造字系统在计算机上的实现作者姓名：黄坚指导教师姓名、职称：皮佑国教授申请学位级别：工学硕士学科专业名称：模式识别与智能系统研究方向：图像处理与模式识别论文提交日期：年月日论文答辩日期：年月日学位授予单位：华南理工大学学位授予日期：年月日答辩委员会成员：主席：委员：华南理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含

3、任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版，允许学位论文被查阅（除在保密期内的保密论文外）；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于：保密，在年解密后

4、适用本授权书。不保密，同意在校园网上发布，供校内师生和与学校有共享协议的单位浏览。（请在以上相应方框内打“”）作者签名：日期：指导教师签名：日期：摘要到目前为止，中文信息处理系统都采用字库方式，GB18030-2005是目前国家发布的包含汉字数量最大的字符集标准，基本满足了汉字信息化的需要。但是汉字是不断变化发展的，字库总是很难跟上汉字的变化发展。每增加一个汉字，就需要增加相应的编码来表示这个汉字，字库也要相应地进行更新，不利于中文信息的交流和传播，不能满足整个社会的各个领域的应用需求。因此很难为汉字信息化建立长期稳定和规模合理的字库标准。此外，字库方式还有不能很好地传承汉字文明、不符合汉

5、字认知机理、与教育脱节等弊端。对这些问题如果能找到一种一劳永逸的解决办法，将会给汉字信息化作出重大贡献。文献23根据认知心理学原型匹配理论，将计算机比作人脑，提出了无字库智能造字的概念，明确了智能造字系统中汉字的编码方式和造字方式，完全有别于传统的从字库选字方式。作者进一步的研究提出了系统的结构框架，由网格获取汉字的结构知识，汉字编码使用结构加基元的表示方式。由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。本文的主要内容是基于上述理论实现智能造字系统，包括：（1）通过对组成智能造字系统结构框架的各个部分的详细阐述，展示了智能造字的原理。通过分析汉字与基元的关系，以当前广泛使用GB

6、18030-2005字符集为实验对象，把汉字部首和汉字部件作为基元的主要来源，实验研究和分析后，最终提取出1085个汉字基元和18种汉字结构。所有汉字都用“汉字结构+基元”的方式来进行编码。仿射变换是系统组字的重要技术手段，基元之间通过仿射变换拼合起来组成汉字。仿射变换参数通过SIFT算法获取。智能造字的知识库由汉字的编码知识、结构知识、基元知识以及基元的映射知识组成，是智能造字系统的数据基础。2. 把智能造字系统划分为三个模块：输入模块，造字模块和显示模块。对各个模块编写了详细的功能需求，根据模块的数据特点精心设计了数据结构，并在算法效率上进行了理论分析。输入模块实现了微软windows系统

7、的IME接口，既可以作为智能造字系统的输入，也可以作为一个独立的系统输入法。造字模块使用了编码校验算法对输入的编码进行了检查，再通过解析程序分离结构编码和基元编码，然后使用仿射变换组字。显示模块使用了编码转换算法和排版算法，在用户界面设计上借鉴了windows记事本。3. 在windows平台上运行智能造字系统，记录系统加载知识库等数据占用的内存情况。测试在系统中各级结构的汉字的输入情况。测试了系统显示界面的排版显示效果。关键词：输入法；汉字基元；汉字结构；排版算法AbstractSo far, all Chinese informationlization processing system

8、s are implemented by font. The GB18030-2005 Chinese character set is the biggest standard character set issued by country and it almost meets the need of Chinese informationlization. The evolution of Chinese character happens all the time and current font cannot follow the process. When a new word a

9、rises, it needs a new code to represent the word, and the font also should be updated, which hinders the communication and transformation of Chinese information. It is hard to establish a reasonable size Chinese character set which will be stable for a long time. Plus, the font cannot reflect Chines

10、e civilization, not conforms to Chinese character recognition mechanism, and is out of touch with education. It will be a great contribution to the Chinese informationlization if a solution to solve all the problems is found.Literature 23 According to the prototype matching theory of cognitive psych

11、ology, compare computer to be human brain, proposed the concept of Chinese character formation system without font, defined the coding and formation method which completely differed from the traditional font. The author brought forward to the framework of the system, acquiring the Chinese character

12、structure by grid, coding the word with the form of Chinese character structure plus Chinese character prototype. The system was composed by Chinese character prototype set, knowledge base and intelligent formation unit. Base on the above theory implemented the Chinese character intelligent formatio

13、n system as following:(1) Detailed descriptions of all parts of the Chinese character intelligent formation system demonstrated the theory of the system. Analyzing the relationship between Chinese character and prototype, using the generally used GB18030-2005 Chinese character set as experimental su

14、bject, we chose Chinese radicals and Chinese character components as the major source of prototype. After experiment and analyzing, we finally extracted 1085 prototypes and 18 structures. All Chinese characters coding followed the form of structure plus prototype. Affine transformation was an import

15、ant formation technology in the system. Chinese character was formed by the prototypes and affine transformation. Affine transformation coefficients were acquired with SIFT algorithm. The knowledge base of the system was composed by prototype coding knowledge, structure coding knowledge, Chinese cha

16、racter coding knowledge and affine transformation coefficients, which was the most important part of the system.(2) Divided the system into three modules: input method module, Chinese character formation module and display module. Detailed functional requirements were designed towards each module. A

17、ccording to the properties of each module, data structure and algorithm efficient were discussed. The input method module implemented the IME interface of Microsoft windows operating system. It could be used as an input method either on the Chinese character intelligent formation system or windows s

18、ystem. Chinese character formation module used a code check algorithm to check the input code, divided the prototypes and structures, and applied affine transformation to form Chinese character. Display module developed coding transformation algorithm and document layout algorithm. Its interface des

19、ign was referenced to windows notepad.(3) Launched the Chinese character intelligent formation system on windows system and recorded the memory consumption of knowledge base. Tested all level structures Chinese characters input. Tested the systems display and document layout.Key words: input method;

20、 Chinese character prototype; Chinese character structure; document layout algorithm目录摘要IAbstractIII第一章绪论11.1 研究背景11.1.1汉字的起源和发展11.1.2中文信息化的发展31.1.3智能造字理论51.2 本文的目的和意义71.3 本文的主要工作71.4 本文的结构安排8第二章智能造字系统92.1 引言92.2 智能造字系统92.2.1 智能造字系统结构92.2.2 智能造字系统模块划分112.3 基元提取，结构提取以及编码方式122.3.1 基元提取122.3.2 结构提取14

21、2.3.3 编码方式182.4 仿射变换造字原理192.5 基元变换知识获取202.5.1 选点方法212.5.2 计算感兴趣区域222.5.3 计算基元变换知识232.6 知识表示242.7 本章小结26第三章输入法模块设计273.1 引言273.2 功能需求283.2.1 皮氏输入法的特点283.2.2皮氏输入法的功能设计303.3 方案设计313.3.1 IME介绍313.3.2 数据结构与查找算法343.3.3 内存处理技巧403.3.4 模块工作流程423.4 本章小结47第四章造字模块设计494.1 引言494.2 需求与设计494.2.1 功能需求494.2.2 数据结构分析

22、与算法504.2.3 模块工作流程554.3 本章小结56第五章显示模块设计575.1 引言575.2 需求与设计575.2.1 功能需求575.2.2 数据结构分析与算法585.2.3 模块工作流程625.3 本章小结62第六章系统测试与分析636.1 引言636.2 智能造字系统性能636.3 智能造字系统实验操作656.4 本章小结69结论711 主要工作及创新712 下一步的改进71参考文献73攻读硕士学位期间取得的研究成果78致谢79V第一章绪论第一章绪论1.1 研究背景1.1.1汉字的起源和发展语言是一种社会现象，是音、义结合的一种符号系统1。人借助于语言来交流思想，组成人

23、类社会生活，进行思维活动、揭露事物的本质和规律，创造人类的物质文明和精神文明2-4。文字是在语言的基础上创造出来的，是语言的最重要的辅助工具。文字储存着人类文明的信息，它超越了语言交际的时、空限制，使异时、异地的交际成为可能5。它可以记载和传递人类的历史经验、使人了解过去的历史，总结自己的经验，开拓未来的生活。这是人类社会发展和认知发展的重要前提6。汉字是汉民族在长期的劳动生产和社会实践中为适应交际需要而独立创造出来的书面交际工具7。在人类文字发展的历史长河中，汉字是一种重要而独特的文字系统。它在记录语言的方法、造字的方式、字形的结构等方面都有着显著的特点8。关于中国文字的起源，在战国以来的两

24、千多年中，一直为学术界所关注，历代学者各抒己见9。归纳起来，包括：（1）结绳说。认为文字是在上古时期结绳记事的启示下创制而成的。（2）八卦说。认为文字产生于易卦的卦象，如乾卦为天，坤卦为地，坎卦为水，离卦为火等。（3）刻契说。认为文字产生于古人为了记事在竹片或木板上所刻的缺口和记号。（4）仓颉造字说。认为仓颉受到灵龟的启示创制了文字。（5）图画说。古人用图画记事，文字是在图画的基础上逐渐产生的。尽管各种说法不尽相同，但是它们都有共通之处，那就是汉字是先民在早期的计数和记事的方法中逐渐演变过来的。计数和记事方法中使用的符号慢慢演化成原始的文字。随着社会的发展，文字的使用越来越广泛，原有的文字开始

25、无法满足社会的需求，人们不得不在这些原有的文字的基础上利用新的方法来创造更多的文字。于是新的造字方法产生了，这就是后来的“六书”造字法。许慎在说文解字中总结了六种造字方法10，分别是“象形、指事、会意、形声、转注、假借”，这六种方法就是“六书”。自许慎系统地提出六书说后，汉字造字法一直围绕六书展开，形成了不同时代，不同派别的“六书说”11,12：戴震提出“四书二用”；唐兰、陈梦家、裘锡圭提出“三书说”；詹郸鑫提出“新六书说”。其中，戴震提出的“四书二用”影响最大，认为转注和假借一般认为只是“用字之法”，象形、指事、会意、形声才是“造字之法”。（1）象形是用线条描画实物的形象，以此来表示字义的

26、造字方法。例如“木”的古字形就是用线条画出树的样子，上面是枝干，下面是树根；“火”的古字形则像火苗向上的样子；“马”的古字形像一匹马；“车”的古字形像一辆车。象形字的字形与字义联系比较具体、紧密，这类字大多表示自然界和日常生活中的实物，如“日、月、山、水、田、井、禾、米、弓、目”等都是象形字。由于象形字只能画出有客观物象的事物，无法表示无形可象的事物和不易画象的事物，所以象形字数量并不多。（2）指事是用象征性的符号来提示字义的造字方法。指事字可以分为两类：一类是纯粹符号性质的，如用一横线作基准，横线上加一短横表示“上”字，横线下加一短横表示“下”字。一类是在象形字的基础上添加指事符号，如“木”

27、下加短横，表示“本”字，指树根，“木”上加短横，表示“末”字，指树梢。其他如“刃”在刀口加点，指明刀口所在，“亦”在人形的两臂之下加点，指明两腋所在。指事字比象形字还少，尤其是纯符号的指事字更少，因为用抽象符号来表示字义，局限性很大。（3）会意是用两个或两个以上字形组合起来表示字义的造字方法。如“吠”是由“口”和“犬”合成，表示狗用口发出叫声。又如“看”是由“手”和“目”合成，表示手放在眼睛上方，挡住光，好远望。其他如“出”像人的脚从坑中跨出，“析”指斧子去砍树木。会意字是在象形字的基础上创造出来的，它所表示的字义要从几个象形字组合的关系上会合出来，因此它加强了象形的表意作用，扩大了象形的使用

28、率。会意比象形、指事前进了一步，能表示较复杂抽象的概念，在一定程度上丰富了文字，但它所创造的字仍然有限，只能弥补象形和指事的一部分不足。（4）形声是用形符和声符组合起来分别提示字的意义和读音的造字方法。形符是形声字的表义成份，声符是形声字的表音成份。例如“桐”字，“木”是形符，表示属树木一类，“同”是声符，表示读“同”音。形声字用形符来提示所记词的意义类属，并区分声符相同的同音字和近音字，如“清、晴、情、请、菁、睛、精”等；形声字又用声符来提示所记词的大致读音，并区分形符相同、读音相近的字，如“伊、仪、倚、亿、依”等。正因为形声法采用形符和声符相结合的方式弥补了单纯依靠字形来表达字义的缺陷，丰

29、富了汉字记录汉语的手段，具有强大的派生能力，所以后来成为最主要的造字方法。上述分析表明，汉字是造出来的而不是选出来的；汉字是由象形和指事符号本身构成或是由象形和指事符号按照会意以及形声的法则进行组合而造出来的。张恩普等人对现代汉字的特点进行分析，认为汉字是拼形文字13-16，是通过图形拼合来记录汉语的。作为一种拼形文字，汉字有如下几个特点：（1）表意的直接性。由于汉字是通过图形拼合来表意的，而图形本身又是同语言中的意义直接联系的；所以汉字的表意具有明显的直接性。首先是形义合一性；这一点在象形字中体现得最为明显，如“日”、“月”、“水”、“火”等字，均依形而画，其字义一看便知。其二是视觉认知性；

30、汉字最能体现文字作为书面语言系统的特性，汉字可以通过视觉接受，而不一定借助声音。（2）图形的整一性。汉字的基本图形为部件或是由若干笔画组成的独体汉字，其组合图形具有完整统一的特点。完整，是指在图形组合中基本图形保持不变；统一，是指组合图形要统一到方形中。具体表现在为两方面：其一，无论多么复杂的汉字，都可以分解为若干完整图形，比如“瀛”可分解为“氵”、“亡”、“口”、“月”、“女”、“凡”六个完整图形。其二，无论由多少图形组成的汉字都必须统一在一个方形里，不因组合图形多少或简单复杂。如“二”和“嫠”。（3）结构的立体性。汉字的图形结构具有很强的立体性，其图形不像拼音文字那样的横向线性排列，而是方

31、形立体结构，组成汉字的各个图形均依据方块字形做立体排列。例如“萍”字。汉字在我国漫长的历史过程和文明发展中建立了不可磨灭的功绩。在世界进入信息时代的今天，最先进的计算机工具与最古老的文字正在有机地结合起来，汉字在文字使用范围和效能上的这种变化使汉字面临着一场新的挑战，这也为汉字的应用和发展开辟了极其广阔的前景，可以使汉字推动社会进步的作用得到了更充分的发挥。我们学习和应用汉字，研究汉字，目的就是要使汉字对中国现代化建设与人类社会文明进步作出更大的贡献。1.1.2中文信息化的发展信息化是指培养、发展以计算机为主的智能化工具为代表的新生产力，并使之造福于社会的历史过程。语言文字是信息化的主要内容。

32、信息资源必须有载体，没有载体就不能保存和传递，由于语言文字承载了80以上的信息，在各类信息载体中，语言文字的重要性居于首位。因此，文字信息化是信息化最重要的底层核心技术，它影响一个国家的信息产业在国际上的竞争能力及信息化水平和效率。我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究，自20世纪70年代中期开始，我国逐渐加快在计算机中文信息处理方面的发展步伐，在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和识别、电子照排、中文平台等多方面取得了一系列重大成果17,18。尤其是在汉字识别和自然语言理解等高技术领域拥有国际领先的地位18。中文信息处理的应用市场广阔，潜

33、力巨大，国外众多计算机企业也加入中文信息处理的研究队伍，对以计算机为实现工具的中文信息处理的应用和推广起到了重要的推动作用。我国已在科学、文化、管理等社会的各个方面广泛使用计算机，信息化已席卷全国城乡，成为一种新型的生活和工作方式。到目前为止，我国和国际组织开发的中文信息处理系统都采用字库方式19-22，以汉字作为信息处理的基本单位。字库中按照一定的顺序保存有每个汉字的显示信息，保存的位置与对应汉字的编码存在映射关系，显示汉字的时候可以直接根据编码读取对应的显示信息。字库根据显示信息的描述方法分为点阵字库和矢量字库。点阵字库中保存了汉字图像中像素信息，这种字在进行放大时很容易出现锯齿，影响美观

34、。现在的字库大都是矢量字库，常用的有True Type字库和PostScript字库。矢量字库保存的是汉字图像的关键点信息，显示汉字的时候根据这些关键点用二次或三次贝塞尔曲线重新连接，所以不管把这种字体放大多少倍也不会模糊或出现锯齿，保证了字体的美观。汉字字库在国内外一直使用至今，基本满足了到目前为止的中文信息化的要求，为中文信息化做出了不可磨灭的贡献。但这种方式也存在它固有的弱点23：（1）汉字信息化标准变化频繁。近20多年来，在汉字信息化标准制定方面，国内外相继制定了多个汉字编码标准。1980年我国颁发的GB2312-80，收录了信息交换用的6763个汉字和682个非汉字图形符号的代码24

35、。1990年我国颁发了GB12345-90，收录了717个图形符号和6866个汉字。汉字均是GB2312-80中简化汉字的繁体形式，其编码范围与GB2312-80相同25；1993年国际标准化组织正式发布GB 13000.1-1993，收录汉字字形20902个26；1995年我国颁布了汉字内码扩展规范GBK，收录了21003个汉字27；2001年我国信息产业部和国家质量技术监督局联合颁布了GB18030-2000，共收录汉字27484个28。1978年到2000年短短22年间，我国出台了四个国家标准，国际标准组织出台了一个国际标准，都是交换码标准。这反映我国对汉字信息化高度重视和全社会对汉字信

36、息化的迫切需求，另一方面也反映了我国汉字信息化的标准稳定性差。最新的GB1803-2005标准可以涵盖70244个汉字。然而，现有十万多个汉字，GB18030-2005的字库还是远没有覆盖所有汉字。从七十年代末期实现中文输入到现在，每隔几年就要扩大更新一次汉字字库。汉字是在不断发展的大字符集，字库总是不能适时跟上汉字的发展，要增加一个新的汉字，需要增加相应字节来储存并规定编码29，就必须颁布新的标准。这就意味着汉字字库方式很难为汉字信息化建立长期稳定和规模合理的字库标准。而且，汉字字库的规模和稳定性永远是一对矛盾：规模越大，稳定性越好；规模越小，稳定性就越差。只要采用汉字字库，上述问题就得不到

37、解决。（2）不符合汉字认知规律而与汉字教学脱节，汉字的学习是从笔画、偏旁部首开始的，而在计算机里就完全是选字，两者脱节。（3）不符合汉字的造字规律，影响对文化的传承作用。汉字是由象形和指事的基本符号体系进行拼合的文字。而现有字库系统不能全面传承中国文字的文化。（4）信息熵高，是效率最低的文字信息系统。联合国的5种工作语言文字的静态平均信息熵，法语、西班牙语、英语、俄语、汉语，分别为3.98、4.01、4.02、4.35、9.65。可见汉字平均静态信息熵是世界上开销最大和效率最低的文字30。1.1.3智能造字理论1.1.3.1 智能造字国内外研究现状鉴于汉字字库存在的不足，不少学者对汉字生成技术

38、进行了研究和探索，并取得了一些研究成果。周浩华31, 32对智能汉字库进行了探讨，受到人写字的思维过程的启示，人先是使用了汉字的构成知识，然后是使用了基本笔画知识，再根据笔画来组成汉字，提出了用笔画来组字的理论；香港大学Pak-Keung Lai33, 34等人根据汉字组件之间的层次关系，提出了汉字组件通过结构进行组合来生成汉字的方法，从而解决计算机字库中存在缺字的问题；香港浸会大学Candy L.K. Yiu35等人同样针对计算机字库缺字问题，提出了利用操作子通过笔画组合来生成汉字，使用一种叫做HanGlyph的汉字描述语言，开发了汉字生成系统；金连文36, 37针对汉字字库的存储量大的问题

39、，根据相同的部件在不同的汉子中出现的规律，提出了一种基于部件复用的分级汉字字库的构想。综上所述，无字库汉字生成研究采用组件拼合的方式，或以笔画作为基本组件，或以部件作为基本组件，得出了可以不用字库生成汉字的结论。上述的汉字生成研究主要存在以下不足：（1）只是从技术层面对汉字生成技术进行了探讨，并没有从文化层面探讨如何传承汉字优秀文化，也无法一劳永逸的解决汉字的信息化标准问题。（2）以上研究的出发点主要针对汉字字库存储量大，汉字字库缺字等问题，开展了局部的，小范围汉字字符集的实验研究，实验集合远远小于当前所有的汉字。（3）以笔画作为基本组件，虽然可以大大减少基本组件的数量，但是汉字编码的长度势必

40、要大大增加，从而大大地降低了计算机进行信息处理的效率和输入速度。另外，笔画是书写的最小单位，采用笔画生成汉字不符合人对汉字的认知机理，与教育脱轨，不传承汉字文明。1.1.3.2 基于认知机理的造字理论针对汉字字库存在的不足，文献38提出汉字电子化中的拼部组字方法，明确提出采用智能造字取代汉字字库，不以汉字作为中文信息处理的基本单元，而是把汉字基元作为组字的基本单元。在中文信息处理系统中只有汉字基元库而没有汉字字库，用汉字基元进行造字而不是到汉字字库中选字。文献39进一步研究提出了系统的结构框架，由网格获取汉字的结构知识，由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。文献40从认知

41、科学的角度开展基于认知机理的汉字智能造字研究，建立汉字原型库和智能造字知识库，在此基础上研究无字库智能造字系统，以智能造字取代现有中文信息处理的汉字字库。研究结果表明基于认知机理的智能造字有如下优点：（1）能建立长期稳定的标准。建立的汉字原型库经过实验，能够覆盖已经存在的所有汉字，归纳的智能造字知识库也能够涵盖已经存在的所有汉字；用规则的形式将他们确定下来，形成造字规则，以后新产生的汉字按造字规则来构造。这样就可以制定长期稳定的标准。（2）能传承汉字文明。智能造字主要使用汉字部件进行组字，偏旁部首汉字原型库和智能造字知识库都遵循汉字的文化特点，符合人的汉字认知规律，同时兼顾计算机信息处理的特点

42、。这样就可以将汉字的文明代代传承。（3）满足社会应用的需要。建立的汉字原型库能够覆盖已经存在的所有汉字，归纳的智能造字知识库也能够涵盖已经存在的所有汉字，据此建立的造字规则能够保证在相当长的一段时间内满足全社会各个领域的需要，不存在不够用的问题。（4）与现有的识字教学相适应。汉字原型库和智能造字知识库都从汉字的文化特点出发，与汉字教学接轨。汉字学习者在学校里学习的汉字知识可在基于智能造字的中文信息处理系统中使用，这就克服了基于字库的中文信息处理与汉字教育脱节的缺点，将为全社会节约大量的社会成本。（5）有可能降低汉字信息熵。汉字原型库的数量将远小于汉字的数量，信息处理过程中的确定性增加，信息熵将

43、会降低，信息化效率将会提高。1.2 本文的目的和意义本文的研究目的是通过实验，利用工程化的实验方法，验证经过实验提取的基元和结构对汉字集的覆盖情况；验证通过实验获取的仿射变换知识来组字的可行性；最终验证基于认知机理的汉字智能造字的可实现性。本文根据基于认知机理的汉字智能造字理论，介绍了基元和结构的提取方法以及汉字的智能造字编码方式，以仿射变换为工具，把基元映射到目标图像来造字。汉字的智能造字编码，基元库和仿射变换系数组成智能造字系统的知识库，利用这些知识开发输入模块，造字模块以及显示模块。如果实现上述目标，就将具有如下意义：（1）如果建立的汉字基元库经过实验验证，能够覆盖已经存在所有的汉字，那

44、么就可以用规则的形式将他们确定下来，以后新产生的汉字将按照该规则来造字。这样就可以像拼音文字一样制定长期稳定的汉字信息化标准；也就可以验证利用有限个汉字基元可以覆盖到整个汉字实验样本。从而建立长期稳定的标准。（2）通过仿射变换进行组字的智能造字方案是可行的。（3）随着汉字集合的不断变大，许多汉字没有读音，五笔输入法也无法涵盖所有汉字，部分汉字的录入成了问题。智能造字系统的输入法可以轻松解决复杂汉字的录入问题。（4）基于认知机理的智能造字方式与传统的选字方式不一样，它需要实时造字，对系统要求高，如果智能造字系统的效率符合需求，有利于智能造字的广泛应用。1.3 本文的主要工作本文主要的研究工作如下

45、：（1）研究智能造字系统的工作原理，根据智能造字系统的结构划分软件模块。按照基元，结构和仿射变换系数的提取方法来获取相关数据，为智能造字系统提供数据基础。（2）智能造字系统的软件实现。设计各个模块的功能需求，然后根据需求来进行具体的设计，在数据存储效率和数据查找算法方面进行优化，尽可能地提高系统的性能，为智能造字的推广创造条件。（3）对智能造字系统进行测试，验证基元和结构的覆盖情况，验证仿射变换组字的可行性，测试系统的整体性能。1.4 本文的结构安排针对上述研究工作，对本文的各个章节安排如下：第一章绪论，简要介绍了汉字的起源和发展；对汉字信息化及中文信息处理系统进行了评述，深入地对汉字字库

46、方式存在的弊端进行了分析和思考；根据认知心理学的原型匹配理论，提出了本文所研究的科学问题，并提出了本文的研究目的、研究意义及主要研究内容。第二章智能造字系统。介绍智能造字系统的工作原理，并且对系统进行了模块划分。简要介绍基元提取的原则和方案，结构提取的理论依据，结构加基元分层编码方式的合理性，仿射变换的数学原理，以及仿射变换系数的获取方法。第三章输入法模块设计。介绍Windows系统IMM输入法接口；介绍输入法模块使用的数据结构和数据查找算法；介绍内存处理技巧；详细介绍输入法的按键处理流程。第四章造字模块设计。设计高效的编码校验算法；设计专门的哈希算法来实现编码的转换；组字过程中加入了双线性插值算法来平滑仿射变换过程中出现的边缘锯齿。第五章显示模块设计。显示模块借鉴记事本的界面；阐述光标定位算法；设计排版算法来增加汉字文档显示的美感。第六章系统测试与实验。对智能造字系统的各个模块的内存使用进行测试；对智能造字系统的基本操作进行测试；对智能造字系统的排版算法进行测试；用图示详细展示输入的过程。最后回顾全文的工作，总结归纳了本研究工作的成果和创新之处，并指出今后进一步的研究工作。79第二章智能造字系统第二章智能造字系统2.1 引言六书汉字

展开阅读全文