google-4

昨天谷歌发布一篇论文,宣布其神经网络机器翻译技术取得了重大突破。在翻译同一语系文章的时候,准确度提升幅度从55%到85%不等,平均提高60%左右。但是翻译不同语系的文章,比如中文到英文的翻译,准确率就会大幅下降。

谷歌表示,之前曾经在YouTube视频即时同声传译字幕的生成当中采用类似的神经网络技术。现在公布这一技术之后,就会优先将其用于比较困难的中文到英文的翻译。谷歌不仅希望此举可以直接造福中英文翻译使用者,同时也是在为比较困难的中英互译积累语料,并进行大量的机械训练。更加强化它的学习效率。我们都知道,新时代的人工智能是通过不断自学习来加速自己的进化的。在今年早些时候,谷歌旗下DeepMind开发的人工智能AlphaGo战胜排名靠前的人类围棋选手李世石的过程当中,AlphaGo就是采取了无数次和自己对弈的过程,实现了棋艺的飞速长进。

消息经过中国科技媒体翻译回来,立刻引发了中国网民的极大兴趣。今天一天时间,很多人通过谷歌翻译以及其竞争对手百度和必应翻译,不断地测试系统的优势以及漏洞。结合了神经网络的机器翻译与传统机翻之间的最大区别在于,其并非以词组作为单位,而是以句子作为单位进行整句翻译,这样可以大大提高准确度。而这种整句翻译的特性体现在效果上就是,很多较长的段落能够维持可读性,基本不需要人工修改语法错误。但是在另外一些情况下,机器还是会出问题,包括遇到专有名词,各地方言,还有语法不规范等问题上。

微博用户 @Xiyu_Estroitia 使用了新版谷歌翻译之后,发现根本挑不出什么错误。他发表的这条微博有近4万次转发,自己加了1000多个粉丝,然后他发表了以下评论:

很多人(包括我)都开始担心翻译们会不会自己失业。英国《金融时报》的一篇专栏文章则认为,由机器来统一基本劳作规范,完成部分翻译量,组合大量译员完成剩余优化任务的模式,将不会消灭翻译这一行业,而是彻底改变这一行业的从业生态。

再把他自己的这条评论放进谷歌翻译处理一下:

Many people (including me) are beginning to worry that translators will not be unemployed. A column in the Financial Times argues that a machine translation of the basic labor specification, completion of part of the translation, and combination of a large number of translators to complete the remaining optimization tasks will not wipe out the translation industry, but will fundamentally change this An industry practitioners ecology.

对照一下百度翻译结果:

A lot of people (including me) have begun to worry about the translation will not be their own unemployment. A column in the British “Financial Times” is that, by the machine to unify the basic labor standard, complete translation, combination of many translators to complete the remaining optimization task model, will not destroy the translation of this industry, but to completely change the industry practitioners ecological.

有几个位置可以比较明显的看出谷歌翻译以句子为单位的翻译痕迹。比如 A column in the Financial Times argues that… 和后面连在了一起。百度翻译的同一位置是 A column in the British “Financial Times” is that, by the machine to unify the basic labor standard… ,在逗号处分隔开,导致“由机器…”失去上下文,被翻译成“by the machine…”。

后面,“…组合大量译员完成剩余优化任务的模式”,百度忠实地翻译“任务的模式”为“task model”,但是正确的断句方法是“完成任务|的模式”。因此,谷歌翻译没有翻译“模式”一词,因为它翻到这里的时候将“模式”隐含的意思前置了。

我自己在知乎张贴了翻译结果以后,补充了一段评价:

我的补充结论就是,机器与人合作确实是必须的,但是,机器能够替代人的工作到什么程度,决定了人类做剩下的工作的价值大小。目前来看,机器能够做得越多,那么人类工作存在的价值越少,所需要的对人类智力或者其他方面的需求也越低,相对来说人类这边的竞争也激烈,获得的工资也就越低。也许有人认为,只有最高端,最顶级的人会用纯人工的方式来工作,其他人的工作会完全取消,我倒是不这么看。我认为所有人的工作质量和工资都会一起下降。

同样,以下是这段话的谷歌翻译……

My added conclusion is that machine-to-person cooperation is indeed necessary, but the degree to which the machine can replace human work determines the value of human work for the rest of the work. Now, the more machines can do, the less the value of human work exists, the less the human intelligence or other needs are required, and the competition for human beings is relatively intense. The lower. Perhaps some people think that only the most high-end, top people will use the purely artificial way to work, other people’s work will be completely abolished, but I do not think so. I think that the quality of work and the wages of all people will go down together.

……和百度翻译:

My conclusion is that it is necessary for the machine to cooperate with others. However, the extent to which the machine can replace human work determines the value of the work done by humans. At present, the machine can do more work, then the human existence value less need for human intelligence or other aspects of the demand is relatively low, the human side of the competition is fierce, the wage is lower. Maybe some people think that only the most high-end, the top of the people will work in a purely artificial way, other people’s work will be completely canceled, I do not look like this. I think all people’s work quality and wages will fall together.

这段话最大最重要的关键点,莫过于这个句子:“目前来看,机器能够做得越多,那么人类工作存在的价值越少……”。小学或者初中英语课程已经学习了“越……越……”这个语法,在谷歌翻译中,到“需求也越低”这一段都被完整识别为一个句子,所以出现了“The more…the less…the less…”这样漂亮的连击,唯独在最后“竞争越激烈,工资越低”这部分破功。百度这部分已经基本上不说人话了;不过因为按照逗号分隔,反而识别出了“the wage is lower”。

此外,“我倒是不这么看”的谷歌翻译“but I do not think so”毫无瑕疵,百度这边是“I do not look like this”,不太理想。从这两段话的翻译当中,我们大致可以感受到整句翻译带来的巨大魔力,只是要说谷歌一下子变成了完美无缺的翻译恐怕还是有点夸大其词。

之所以拿百度举例子,是因为正如知乎上清华大学计算机科学与技术系助理研究员刘知远所说,“百度翻译早就上了NMT(神经机器翻译),效果也不错,也没见国内媒体这么兴奋。”

在国内社交媒体上,众多网友轮番压力测试,其中曾在微软亚洲研究院实习的熊辰炎指出,谷歌将“我要下班”翻译成“I want to work”,“我要放学”翻译成“I want to school”。现在这两个翻译错误已经都被修改(加了个get off)。

另外,我发现譬如在知乎复制文字后会带上转载信息,其中的“作者:xxx”不管xxx是谁都会被翻译成“JOURNAL OF PEOPLE’S LIBERATION ARMY”(《中国人民解放军学报》?)。现在已经老老实实翻译成“Author: xxx”,不过我的名字“李书航”还是错了,会被写成“hang shu”。

任何成功都并非一蹴而就,而是站在巨人的肩膀上。众多分析都指出谷歌本次的论文和投入生产的技术并无根本革新,而是对以往理论的成功应用和组合。因此,就让我们通过频繁使用谷歌、百度、必应等机器翻译,强化它们的学习能力,期待以后给我们带来更多惊喜吧。