第七节机器翻译

目前,信息高速公路上运行的信息资源多以英文为主,这就为非英语语系的国家及人们有效地获取和阅读信息带来了障碍,并且直接影响到信息高速公路的普及和发展,因此,采取有效途径解决不同民族和国家的语言沟通问题,则显得尤为重要。机器翻译及其技术便是最为直接的解决问题的理想方法之一。

一、国外机器翻译的概况

机器翻译的广义定义是利用计算机从一种自然语言的符号表达转换为另一种或多种自然语言表达。这一定义包括文本信息的自动翻译,也包括话语信息的自动翻译。现阶段,机器翻译是指将文章从一种语言自动翻译为另一种或多种语言。机器翻译迄今已有 60 年的发展历史。1946 年,美国洛克菲勒财团副会长韦弗从第二次世界大战密码破译得到启发,首次提出了用计算机进行机器翻译的可能性。直到 70 年代,尤其在后半期,机器翻译取得了快速发展,并进入了商业化实用阶段。80 年代,出现了多种具有算法性质的新型语法理论,对机器翻译的实践起了相当大的促进作用。此后,随着计算机硬件和软件的迅速发展,微型计算机的存储量可存放一部大的双语字典,出现了微型化的计算机翻译系统。

现在,世界上机器翻译系统多达上百个。其中规模较大、已经实用或已经商品化的系统近 20 个。如欧洲共同体总部正式投入使用和运行的 SYSTRAN

系统,已有 10 多个语种的版本,1 小时可译 50 万单词,比普通人工翻译快500 倍,法国布尔公司每年用它翻译4500 万单词,美国空军每年用它翻译1000 万到 1500 万单词。

在欧、美、日等国家,机器翻译已开始实用,并形成相当规模的产业。据不完全统计,欧美国家每年使用机器翻译系统至少翻译 2.8 亿词。较成熟的机器翻译系统直接输出的译文译准率(专业人员完全可读懂)一般在 80% 左右,译后人工编辑量 20%左右,有些系统采用交互式系统和适量的译前译后编辑,直接输出的译文质量更高。日本许多计算机或电子厂家如富士通、日立、日本电气、东芝等约 10 家公司。都有自己的机器翻译系统,各大公司还联合创办了电子辞典研究所,从事大规模日语词库的研究和建设工作。

二、我国机器翻译现状

中国是继美国、英国、前苏联之后最早开展机器翻译研究的国家之一。1956 年国家科技发展规划列入了机器翻译项目。1959 年由中国科学院计算研究所和社会科学院语言研究所等单位合作研制了俄汉机器翻译系统。1975 年开始,国家在“六五”和“七五”规划中恢复并加强了对机器翻译研究的支持,使我国的机译研究进入了复苏和蓬勃发展的新时期。1978 年中国科学技术情报研究所开发试验了冶金文献英汉机器翻译系统,以 5000 条题录为试验材料,达到了预期效果。目前,我国机器翻译研究已列入“863”国家科技攻关计划项目之中,经过十几年的发展,机器翻译事业取得了长足的进步和发展,出现了一批具有一定实用性的机器翻译系统。

英汉机器翻译系统

英语作为最常用的语言之一,在科技文献中占有极其重要的地位。世界上大多数重要学术论文都是以英语发表,因此,英汉机器翻译在我国受到了极大的重视,并出现了一些实用性较强的英汉机器翻译系统。

  1. “译星”英汉机器翻译系统。其主要设计者是董振东教授,1991 年获国家“七五”攻关重大成果奖,它的出现引起国内外机器翻译界和计算机语言界的瞩目。近年来,“译星”系统重新设计和编程,发展为“译星— 92”系统,在翻译速度、用户界面、词典结构、词典维护等方面均有明显改进,系统现有基本词条 4 万多条,专业词典分 10 个领域共 35 万条。

  2. 智能型英汉机器翻译系统。该系统是基于人工智能技术的新一代机器翻译系统,主要设计者是中国科学院计算研究所陈肇雄博士。系统从 1986

年开始研究,1990 年开发成功,现在基本词 35000 条,汉语词 25000 条,通

用规则 1500 条,此外还有大量的特殊规则和成语规则。该系统作为智能型机器翻译系统,在总体设计、翻译处理技术、语言学工程和知识处理等方面具有特色。这个系统的部分成果于 1992 年实现了产品化,并同港商签订了长期合作合同,开辟了我国机器翻译产业化的新路。

  1. 高立英汉机器翻译系统。该系统由中国社会科学院语言研究所研制,后由该所与北京高立电脑软件公司合作进行商品化开发,目前已经投放市场。系统的基本词库收词 60000 条,语法规则库收规则 800 条,背景知识

库收规则达 150 条,翻译速度达每小时 12000 个词以上,系统的开发从试验性的题录翻译、全文翻译,到发展为实用型全文翻译。在研制期间,设计思想和算法技术经几次原则性调整和优化,研究成功后又经历了两年多的试验性运行,进行了各种性能指标的考核,取得了较好的效果。

汉译

80 年代以来,我国也开始了汉译英和各种语言对汉语的机器翻译的研究和试验,并取得了可贵的成果。

  1. “汉译”汉英、汉日机器翻译系统。该系统由中软公司吴蔚天教授领导的项目组研制的单向多语对汉译系统,包括汉英、汉日两个机器翻译系统。“汉译”系统首先是一个多功能的汉语信息处理系统,包括切分、词性处理、生成语法树和外语生成等可独立使用的模块。其中每一个模块都可以单独使用,所以“汉译”还能为自然语言理解、汉语词语研究提供条件。“ 汉译”系统的汉英翻译在科技报告、论文、报刊文章、产品说明书等方面已经有了翻译数十万字的实践经验,用户反映能减少 50%的工作量。

  2. 德汉机器翻译实验系统。由上海交通大学计算机科学与工程系盛焕烨教授负责研究的面向机电类专业的德汉题录机器翻译系统,主要是对德语科技及专利文献、产品说明书和技术手册等进行翻译。目前该系统的词典容量为 2 万多词,除少数特殊情况外,一般不要求译前与译后加工,其翻译效果良好。目前,该系统尚在进一步开发与研制之中。

此外,还有南京大学的日汉机器翻译系统,哈尔滨工业大学的汉英机器翻译系统和东北大学的汉英机器翻译系统均比较成熟,并正在向实用化方向迈进。

我国机器翻译经过了多年努力研制出来的上述系统都在走向实用化和商品化,但其中多数系统的译文质量仍是一个严峻的问题。对于一些常用语和简单句型,翻译系统经过不断调试,有一定的“可懂度”,且大多局限在一定的专业领域内,对于一些复杂句子、多义词和歧义词等翻译问题则还有待做进一步的深入研究工作。

三、机器翻译的走向

纵观国内外机器翻译的发展,其未来走向可归纳为以下几点。

  1. 改变传统的机器翻译大多基于纯规则的方法,运用基于语料库的方法,包括引入统计方法、基于实例的方法和对语料库进行加工使之成为语言知识的方法等,这些方法正成为世界关注的课题。语料库是最重要的翻译知识资源,可用于翻译支持系统,当翻译人员发现翻译、写作的疑问时,可以参考例句、范文获得帮助。语料库还可用于自动翻译系统,当句子或句子某一片断不好翻译时,系统可找到相近的例子自动模仿完成翻译。

  2. 在特定专业领域实现高质量全文自动翻译。面向特定专业的机器翻译系统将是今后一段时期机器翻译研究突破的重点,现在虽然有一些面向特定专业的机器翻译系统,但由于其翻译质量差,专业范围窄小,从而无法大规模扩大使用。估计未来几年机器翻译系统将在这方面有所突破,并将随着专业领域的不断扩大,逐步提高译文的质量和专业范围。

  3. 语音机器翻译系统。与语音识别和合成系统相结合形成的语音机器翻译系统,将是今后机器翻译发展的另一主要方向。这种系统具有广泛的应用范围,如可形成全自动电话翻译系统、同声会议翻译系统等,但由于语音识别和机器翻译本身固有的难题,语音机器翻译系统在近期还不大可能实现应用化。

  4. 走向商业化和产业化。目前虽然有许多投放使用的机器翻译系统, 但真正实用化和商品化的系统并不多。由于社会信息量的增加和语言障碍的

突出,以机器翻译为主要工具的快速翻译服务则显得非常迫切,因此,使机器翻译实现产业化和商品化势在必行。

  1. 大力开展语料库和电子词典的大规模建设。世界各国尤其是加拿大、欧洲、日本都非常重视该项工作。如日本成立了“电子词典研究所”, 并在研究一种通用电子词典,其目标是适用于多种自然语言处理系统使用的包括日语和英语的通用电子词典,该词典包括基本词语 20 万条,专业词语

10 万条,而且不仅包括词语词典,还包括用“知识表达语言”构筑的概念语典。这部词典将用于机器翻译,信息检索语言识别等多种范围。