译网
语言行业资讯

机器翻译的瓶颈在哪?如何突破?

何昕博士 (澳门科技大学研究生院 从事博士后科研工作,研究方向为机译技术)

机器翻译(Machine Translation,简称MT),又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的核心技术之一,具有重要的科研价值。同时,MT又具有重要的实用价值;随着经济全球化及互联网的飞速发展,机译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。

机译技术的发展一直与计算机技术、信息技术、语言科学等的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到如今基于神经网络的方法;从过去局限于理解句子,发展到现在多文本、跨模态的内容理解,MT已经整整走过了70多年的历程。对于MT来说,不管是它应用范围的广度,还是其发挥作用的重要性,都具有不可估量的想象空间。

按目前翻译需求的提交和反馈方式,MT主要可分为“文字机译”、“语音机译” 和“图片机译”三种方式。谷歌、微软、脸书、百度等各大科技公司积极研发的机译技术中,多以文字机译和语音机译为主,在这两方面谷歌皆暂处领先地位。而图片机译则近年来才受到关注,谷歌和百度都已在图片机译领域初显身手;尽管识别结果和翻译质量不尽人意,但也不失为一种尝试。

近年深度学习的研究取得较大进展,基于人工神经网络的MT逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文,从而实现了“理解语言,生成译文”的翻译方式。

事实上,不论哪种方法,影响机译发展的最大因素在于译文质量;就已有的成就来看,机译的译文质量离终极目标仍相差甚远。那么,什么是译文质量?其标准是什么?我国著名翻译家和教育家严复先生提出了“信、达、雅”的翻译标准,还有美国著名翻译家和语言学家尤金·奈达先生提出的“功能对等”理论。不可否认这些理论都对翻译实践产生了强大的指导意义。

长期以来,许多科学家采用多种技术和方法来提高MT的译文质量,但实际效果并不是很理想。一些专家认为,MT要达到人工翻译(简称“人译”)的水准,首先要解开人脑处理语言信息之谜。我国著名学者周海中先生曾经指出,在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。这一观点也许道出了制约译文质量的瓶颈所在。

只有突破机译瓶颈,才能提高MT的译文质量。可喜的是,近几年,陆续实施的欧洲大脑计划、美国大脑计划、中国大脑计划等都旨在利用计算机模拟人类大脑的功能,以便提高人们对大脑神经网络系统的认识。这些计划的研究成果也势必有助于人们了解大脑是如何进行自然语言处理的,并有望为机译技术的突破性进展,尤其是译文质量的迅速提高铺平道路。

机译技术一直被科学界公认为是人工智能领域最难的课题之一,曾经被英国《新科学家》杂志列为“21世纪世界十大科技难题”的第一位。MT要达到人译的的水准,还有一段漫长而艰巨的路要走。目前,人们只能将机译与人译结合起来,相辅相成,既能节省翻译的时间,又能做出高标准的译文。

文/何昕(作者单位:澳门科技大学研究生院)

未经允许不得转载:『译网』 » 机器翻译的瓶颈在哪?如何突破?