谷歌的核心业务是搜素,帮助人们快速地找到散落在全球的、所需要的网页,但是要想让人们无障碍地阅读这些信息,则离不开翻译。早在2003年,谷歌就开始组建团队研究更好的机器翻译方式,并在2006年基于自行研究的统计机器翻译法,首批推出了汉语和阿拉伯语服务。

 

到今天,谷歌翻译已经可以提供64种不同语言之间的自由翻译,每天翻译的量相当于100万本书,仅网页上的谷歌翻译应用,每月有超过2亿的活跃用户。

 

在谷歌上海新办公室中,谷歌翻译科学研究院徐鹏,给我们介绍了谷歌翻译产品和它背后的技术。

 

谷歌翻译产品

 

我们最熟悉的谷歌翻译产品是网页上的谷歌翻译(translate.google.cn)。它有以下一些功能:

 

1)实时:支持在输入源语言的同时,实时显示翻译结果。考虑到不同语言之间可能存在着的不同语序问题,要做到实时并不容易;

 

2)编辑:在翻译结果栏,可以对翻译的文字进行修改(点击字或词,从下拉框中选择不同翻译结果)和重新排序。这个很有用的一点是,用户可以把经过人工修正的正确的翻译反馈给谷歌,帮助他们提高翻译质量(谷歌翻译是一个基于机器学习的体质,后面会提到);

 

3)朗读:可以把原文和译文朗读出来,这点可以帮助到正在进行语言学习的人们。另外,在Chrome浏览器内,还支持语音的输入,解放双手;

 

4)网站地址翻译:谷歌的翻译框支持文字、网站地址和文档的翻译。在网站地址翻译上,比如输入动点科技英文站网址technode.com,翻译结果是,带上超链接的同一个网址,而点击进去之后,就会直接看到已经翻译成中文(选择目标语言为中文)的,动点科技英文网站内容。

 

 

 

在网站翻译这块,谷歌还提供了“网站翻译器”的工具,网站主可以把网站翻译器加在自己网站中,就可以让访问者即时查看自动翻译的网页。

 

在移动端,谷歌翻译也有iOS和Android的客户端,并且新增了一些更适合移动情景下使用的功能。比如对话模式,一方说中文,谷歌翻译会自动识别并翻译成英文读出来,同样对方的回答也会以中文读出来。这个模式目前支持17种语言之间的语音翻译。移动端也支持手写收入,这更适合日文或韩文的应用,照着样子画出来,就可以翻译了,手写输入目前支持7种语言。

 

在移动中,比如旅游,人们对语言翻译的需求会很大。目前谷歌移动端的流量以每年超过4倍的速度增长。

 

另外,谷歌翻译也与谷歌的其他产品有很多的结合。比如在Chrome浏览器嵌入翻译功能后,打开外文网页后,会自动提示用户是否需要翻译成母语;

 

在搜索中,输入关键词之后,除了查看母语的搜索结果外,还可以通过“翻译的外文网页”,直接查看翻译好的外文网页。也就说是,可以找到与该“关键词”有关的全球的网页,并且直接以母语阅读结果。

 

谷歌翻译是如何工作的

 

如上面提到的,在表面上仅需要几个点击,甚至不用点击,就会立刻出现的相对高质量的翻译结果。在谷歌翻译的背后,是一套怎样的逻辑和技术呢?

 

1、前期的训练

 

首先需要说明的是,谷歌翻译采用的是机器翻译。通过不断地输入数以亿计的资料,对系统进行训练。

 

这些资料被称为是“平行语料”,即包含源语言和翻译语言的对应的文本,大都来自政府公告、联合国条文以及网上的公开资料(这些资料的选取会影响系统学习效果,有时候系统也会把并不是匹配的内容当成是源语言和对应的翻译语言抓过来学习)。

 

通过大量的平行语料,系统会找到原语言和翻译语言中相对应的词,比如当“product”和“产品”这两个词经常一起出现时,“产品”就会被认为是“product”的翻译。

 

在找到词和词之间的对应后,接下来是学习词组和词组的对应,比如“The two sides”和“两边”、“双方”等等。

 

这里会存在的一个问题是,如果某种语言能找到的平行语料比较少,那么它的翻译质量相对也会降低。也就是说,谷歌不同语言的翻译质量可能是不同的。另外,语言一直在不断地发展变化中,也需要不断地学习。

 

2、拆分-匹配-整合

 

上述的这些海量信息都存储在谷歌的数据中心里。当正式翻译时,句子/文档/网页的内容首先会被拆分成单词,发送到不同的服务器,进行匹配,然后再从匹配的结果中合成。这整个过程大都在1秒以内完成,对存储能力和运算能力都是要求极高的。

 

不过,作为机器翻译,在翻译质量上肯定还是不及人工翻译。徐鹏介绍说,谷歌翻译目前可以接近业余翻译人员的翻译质量。对比对动点科技英文站的翻译结果,确实还是有不少地方翻译错误(比如下图中的“微信”-味辛“”)。

 

 

即使这样,通过这样的翻译工具,我们有机会去尝试浏览全球各个国家的的网页,并和他们去沟通,让信息自由流动,很酷:)

 

 

 

(动点科技创业QQ群:230436639,仅限互联网/移动互联网创业公司的创始人/联合创始人加入,入群请写明项目、职务和姓名。)