吉林省企业技术难题汇编 .pdf

资源描述

1、的机器翻译系统则是在一种翻译策略为主体的前提下，在系统的不同模块分别使用了不同的技术，例如4就在基于实例的机器翻译框架下使用了基于规则的分析和基于统计的生成。 3.5 讨论基于规则的、基于实例的、以及统计机器翻译方法是目前公认的对机器翻译方法的分类方式。通常认为，统计方法和实例方法都是数据驱动的方法。统计机器翻译方法在训练阶段使用双语语料获得统计模型，翻译时使用事先训练好的统计模型。基于实例的机器翻译方法本质上是一种基于实例推理的方法，它在翻译阶段直接使用翻译实例。与数据驱动的方法相对，传统的基于规则的机器翻译方法中，通常用人工撰写的规则来描述语言规律。那么，三种机器翻译方法之间到底是什么

2、关系呢？本质上，这三种方法并不是互斥的，而是着眼点不同，从不同角度强调问题的不同方面。统计是从数学角度强调统计建模能力，实例是从机器学习的角度强调对翻译实例的抽象程度，而规则是从语言现象入手来描述语言的成分构成规律。严谨的统计模型、大单元的翻译实例、多层次的成分构成完全是可以融合共生的。 4 机器翻译评测用计算机翻译人类语言固然很难，对翻译结果进行恰当的评价也不简单。同样一句话，不同的人翻译可能会产生不同的结果；同样一个翻译结果，不同的人也可能会给出不同的评价。这种客观存在的不确定性为准确公平地评价机器翻译结果带来了困难，而合理的评测体系又是进行科学研究和实验所需要的。因此，机器翻译评测方法

3、也一直广受重视。 4.1 机器翻译评测方法对机器翻译系统的评测比较复杂，可能包括系统性能的方方面面，如译文质量、翻译速度、空间开销、稳定性、易用性等等。所有这些中，译文质量无疑是机器翻译引擎最核心的指标。这里只讨论译文质量的评价。根据评测的自动化程度，机器翻译评测可以分为人工评测和自动评测。顾名思义，人工评测由人来对翻译结果进行评价；而自动评测则由计算机自动完成对翻译结果的评价，自动评测往往需要预先给出评价模型及设置参考答案。根据评测内容，机器翻译评测可以分为语言点评测和全文评测。前者根据事先设定的语言点是否被准确翻译来评价翻译质量，这种评价有些类似于作文考试中，参考语言点来为作文评分的

4、方法。后者则不预先设定评价点，而是对译文进行整体评价。现在的人工评测通常采用忠实度和流利度两个评价指标。忠实度用来衡量译文忠实于原文的程度，反映的是译文的含义相对于原文是否正确。忠实度又可分为若干等级，例如：“译文准确完整地表达了原文含义”为5分；“完全错误或没译出来”为0分。流利度则用来衡量译文本身是否流利，反映译文是否符合目标语言的表达习惯。流利度也可分为若干等级，例如：“流畅地道的译文”为5分；“完全不通的译文”为0分。上世纪九十年代初，我国学者俞士汶提出了一种基于测试点的机器翻译自动评价方法18，并曾应用于两次863机器翻译评测。现在的机器翻译自动评测，通常衡量的是被评价译文与参考

5、译文之间的总体相似度，而且这种相似度的计算只涉及字符本身，而不需要进行深层的语言理解。这类方法中，影响最大、使用最广的BLEU 19根据N-gram的比较来进行评价。BLEU的思想虽然很简单，但其评价结果却与人工评价有着良好的相关性。NIST打分的基本原理与BLEU类似，但与BLEU使用几何平均不同，NIST使用了算术平均，同时NIST还对低频N-gram赋予了更高的权值。其它常用的评价指标包括METEOR、Word Error Rate（WER）、Position independent word Error Rate（PER）、Translation Edit Rate（TER）等。最新研

6、究表明，即使没有人工参考译文，使用机器自动生成的伪参考译文也能得到很好的评价结果 20。 4.2 机器翻译评测举例 NIST机器翻译评测2是国际上影响最大的机器翻译评测。与中文相关的，NIST评测过去主要开展了汉语到英语的机器翻译的评测，2008年的评测也将开展英语到汉语的评测。NIST评测主要针对文本语料的翻译，国际上另有一些口语翻译方面的评测，如WSLTI3和TC-STAR4的评测。国内方面，由国家863计划组织的中文信息处理与智能人机接口评测曾有6次进行了机器翻译评测5，973项目曾开展过一次汉英机器翻译的评测，2007年8月在哈尔滨工业大学召开的第三届统计机器翻译研讨会（SSMT20

7、07）也进行了机器翻译评测6。 5 机器翻译应用机器翻译技术有着广阔的应用需求，本章将分类介绍机器翻译的各种应用，而不拟提及具体的公司及产品名称。按自动化程度，机器翻译可分为自动翻译和辅助翻译。前者由于没有人工参与，难以直接得到很高质量的译文，但可以用于信息的快速浏览和获取。后者通过人机互助，可以得到高质量的译文用于出版、发布等信息传播目的。辅助翻译根据人机分工不同又可分为机助人译和人助机译两种。根据处理对象不同，机器翻译可以分为文本翻译和语音翻译。前者处理文本输入，而后者处理语音输入。从使用目的角度，机器翻译可以分为四种用途：传播信息、获取信息、交流信息、和检索信息。一般来说，辅助翻

8、译系统或严格领域受限的高质量自动翻译系统可以生成高质量译文用于信息传播；通用的全自动翻译系统可以生成虽不完美但基本可懂的译文用于信息获取；受限领域的口语翻译系统可以帮助人通过语音或即时通讯系统进行信息交流；跨语言信息检索系统可以帮助人完成不同语言之间的信息检索。机器翻译系统可以有多种产品形态，如独立的翻译软件包、翻译引擎授权、翻译服务提供、与硬件捆绑等等。 6 结语现代的机器翻译研究已有半个多世纪的历史，其间产生过令人振奋的成果，也有过令人沮丧的时候，但无论多么艰深，人类对于机器翻译的探索和渴求始终也没有停止过。身兼文理、统合技术与艺术的学科魅力吸引了无数的研究者献身其中；促进跨语言交流的

9、显著作用和巨大的应用价值吸引了大量的机构投资其中。作为世界上使用人数最多的语言，中文相关的机器翻译一直广受重视，而随着其研究的不断深入、开发的不断完善，其性能也必将不断提高，进而带来巨大的社会效益和经济效益。参考文献 1 Jiang Zhu, Haifeng Wang. 2005. The Effect of Adding Rules into the Rule-based MT System. In Proceedings of MT SUMMIT X, pages 298-304. Phuket Island, Thailand. 2 M. Nagao. A Framework o

10、f a Mechanical Translation between Japanese and English by 2http:/www.nist.gov/speech/tests/mt/ 3http:/iwslt07.itc.it/ 4http:/www.tc-star.org/ 5http:/ 6http:/ Analogy Principle, In: A. Elithorn, R. Banerji (eds), Artificial and Human Intelligence, pages 173-180. NATO publications. 3 王海峰, 刘占一, 吴华. 20

11、07. 半结构化的基于实例的机器翻译. 见: 孙茂松, 陈群秀主编. 内容计算的研究与应用前沿. 清华大学出版社. 1-9. 4 Zhanyi Liu, Haifeng Wang, Hua Wu. 2006. Example-Based Machine Translation Based on Tree-string Correspondence and Statistical Generation. Machine Translation, 20(1): 25-41. 5 Zhanyi Liu, Haifeng Wang, Hua Wu. 2007. Log-linear Generatio

12、n Models for Example- based Machine Translation. In Proceedings of MT SUMMIT XI, pages 305-312. Copenhagen, Denmark. 6 Hua Wu, Haifeng Wang, Zhanyi Liu, Kai Tang. 2005. Improving Translation Memory with Word Alignment Information. In Proceedings of MT SUMMIT X, pages 313-320. Phuket Island, Thailand

13、. 7 Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, 1990. A Statistical Approach to Machine Translation. Computational Linguistics, 16(2):79-85. 8 Peter F. Brown, Stephen A. Della Pietra, Vincent J.

14、Della Pietra, Robert L. Mercer 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics, 19(2):263-311. 9 Philipp Koehn, Franz Josef Och, Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of HLT-NAAC- 2003, pages 127-133. Edmont

15、on, Canada. 10 Dekai Wu. 1997. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora. Computational Linguistics, 23(3):377-403. 11 David Chiang. 2005. A hierarchical Phrase-based Model for Statistical Machine Translation. In Proceedings of ACL 2005, pages 263-270. Ann

16、Arbor, Michigan. 12 Franz Josef Och, Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19-51 13 Dengjun Ren, Hua Wu, Haifeng Wang. 2007. Improving Statistical Word Alignment with Various Clues. In Proceedings of MT SUMMIT XI, pages 3

17、91-397. Copenhagen, Denmark. 14 Hua Wu, Haifeng Wang, Zhanyi Liu. 2005. Alignment Model Adaptation for Domain-Specific Word Alignment. In Proceedings ACL 2005, pages 467-474. Ann Arbor, Michigan. 15 Haifeng Wang, Hua Wu, Zhanyi Liu. 2006. Word Alignment for Languages with Scarce Resources Using Bili

18、ngual Corpora of Other Language Pairs. In Proceedings COLING -ACL2006 Main Conference Poster Sessions, pages 874-881. Sydney, Australia. 16 Necip Fazil Ayan, Bonnie J. Dorr. 2006. Going Beyond AER: An Extensive Analysis of Word Alignments and Their Impact on MT. In Proceedings of COLING-ACL 2006, pa

19、ges 9-16. Sydney, Australia. 17 Declan Groves, Andy Way. 2005. Hybrid Example-Based SMT: the Best of Both Worlds?. In Proceedings of ACL 2005 Workshop on Building and Using Parallel Texts: Data-Driven Machine Translation and Beyond, pages 183-190. Ann Arbor, Michigan. 18 Shiwen Yu. 1993. Automatic E

20、valuation of Output Quality for Machine Translation Systems. Machine Translation, 8(1-2): 117-126. 19 Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL 2002, pages 311-318. Philadelphia, Pennsylvania. 20 Joshua S. Albrecht, Rebecca Hwa. 2007. A Re-examination of Machine Learning Approaches for Sentence-Level MT Evaluation. In Proceedings of ACL-2007, pages 880-887. Prague, Czech Republic.

展开阅读全文