机器翻译的前世今生
机器翻译,简称“机译”,是利用计算机实现从一种自然语言(源语言)文本到另一种或多种自然语言(目标语言)文本的翻译;而用以翻译的软件叫做机译系统。机译涉及语言学、计算机科学、认知科学、数学等多个学科,是一门前沿交叉学科。这一充满挑战的研究领域,被列为21世纪世界十大科技难题的第一位。
从盲目乐观到“不可行”——机译发展浮沉
早在古希腊时代就有人提出利用机械装置来进行语言翻译的想法;然而,只有在计算机问世后,机译的梦想才逐渐变成现实。被誉为机译鼻祖的美国数学家、工程师沃伦·韦弗(Warren Weaver)于1947年的各类交谈和信件中多次提到机译的设想,并于1949年7月发表了其有着广泛而深远影响的备忘录——《翻译》,正式提出了机译问题。此后的60多年中,机译研究经历了艰难而曲折的发展历程,有成功和兴奋,但更多的是挫折和困惑。
1954年,美国乔治敦大学在IBM公司协助下,用IBM-701型计算机首次完成了英俄机译试验,向公众和科学界展示了机译的可行性,从而拉开了机译研究的序幕。随后苏联、英国、中国、法国、日本、加拿大等也相继进行了机译试验。机译研究一时出现热潮;在这个时期,机译虽然刚刚处于开创阶段,但很快就进入了盲目乐观的泡沫期。
当时由于人们忽略了自然语言和翻译本身的复杂性以及机器自身的局限性,机译系统的翻译质量很差,还闹出了不少笑话。最著名的例子是,当英语谚语“心有余而力不足”翻译成俄语时,其意思却变成“酒是好的,肉变质了”。1964年,为了对机译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(ALPAC),开始了为期两年的综合调查分析和测试。ALPAC于1966年11月公布了一个题为《语言与机器》的报告;该报告全面否定了机译的可行性,并建议停止对机译项目的资金支持。这份报告的公开发表给了正在蓬勃发展的机译当头一棒,各国的机译研究陷入了近乎停滞的僵局。
打开电脑上网翻译
——互联网让机译再次风靡
全球化进程的加速以及国际交流的日趋频繁,让人们对于翻译的需求空前增长,而互联网的发展让机译迎来了一个全新的机遇。从上世纪80年代中期开始,基于语料库或多引擎的机译方法在研发中得以广泛运用,机译系统的性能、效率和译文质量都有了明显的提高;各式各样的翻译软件如雨后春笋般层出不穷。
如今功能较强、方便易用的在线翻译工具有谷歌翻译、雅虎翻译、脸谱翻译、巴比伦翻译等,其中谷歌翻译最具特色。谷歌翻译目前可提供63种主要语言之间的即时翻译;它可以提供所支持的任意两种语言之间的互译,包括字词、句子、文本和网页翻译。谷歌翻译主要是采用统计翻译模型,往计算机内输入大量的文字文本,包括源语言的文本,以及对应目标语言人工翻译的文本,通过海量统计数据来提高翻译精确度。谷歌翻译之所以采用统计翻译模型一个重要原因就是谷歌的云计算架构;该架构拥有谷歌研发的分布式计算系统和分布式存储系统。
2029年机译质量能否达到人工翻译水准
——我们拭目以待
美国发明家、未来学家雷·科兹威尔(Ray Kurzweil)最近在接受《赫芬顿邮报》采访时预言,到2029年机译的质量将达到人工翻译的水准。
对于这一论断,还存在很多争议。但不可否认的是,目前是人们对机译最为看好的时期,这种关注是建立在一个客观认识和理性思考的基础上的。我们也有理由相信:随着科学技术的发展,尤其是人工智能的突破,机译的瓶颈问题将会得以解决。
不过就已有的成就来看,机译系统的译文质量离终极目标仍相差甚远,而机译质量是机译系统成败的关键。中国数学家、语言学家周海中曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的。另外,在人类尚未明了“人脑是如何进行语言的模糊识别和逻辑判断”的情况下,机译要想达到“信、达、雅”的程度是不可能的。这些都是制约机译质量提高的瓶颈。
无论如何,现在匆忙下结论为时过早,还是让我们拭目以待吧!