近日,微软公司在视频网站YouTube上发布一段发布会视频,展示了目前微软研究院所即时语音翻译系统的最新研究成果,这一系统不仅可以达到即时语音识别、双语翻译,更牛的是可以做到即时发音,效果已经接近同声传译。
在视频中,微软研究院主席瑞克·拉希德(Rick Rashid)解释了其工作原理和语音识别领域取得的进步,并向在场的记者做了即时英译汉口译演示。演示过程中,发言人的英语单词几乎全部被识别(识别率约为80%-90%),随后开始做即使英译汉演示,最后做汉语译文发音演示。
更奇妙的是,微软研究院的这一系统还可以模拟发言人的口音,在经过大约1个小时的机器磨合之后,就可以完成这一功能。例如,若是由英国人来使用,那么系统的汉语发音将带有伦敦腔。
据瑞克·拉希德介绍,这一系统包含许多核心技术:“大约两年前,微软研究院的研究人员和多伦多大学的研究者共同完成了这一创举。利用一种称为‘深层神经网络’的技术,模拟人脑行为,通过训练可以提高系统识别能力,语音识别效果比上一代产品更好。通过对比之前的产品,新一代产品的单词识别错误率下降了30%,也就是说以前的语音识别系统中,没识别4、5个单词就有一个错误的单词,现在可以降低到每7、8个单词才出现一个错误,大大提高了机器翻译的质量。”
近几十年来,因为机器翻译译文质量的问题,机器翻译一直不太受重视。但我们需要了解的事实是,在2005年,中国的翻译市场就有200亿人民币,但是各类翻译人员和翻译工资只能消化10%的市场,缺口巨大。另外,欧盟每年花在翻译20多种文件上的翻译支出就占到了整个欧盟行政支出的一半以上。有了高质量的机器翻译,不仅可以弥补翻译人手不够的问题,还可以创造更多商业机会。