sound-856770_1280

今天下午,百度在百度语音开放平台上线3周年之际,宣布开放四项全新语音技术的接口,帮助用户提升在使用语音与机器进行交流时的交互体验。

无独有偶,在乌镇世界互联网大会上,搜狗CEO王小川的演讲伴有搜狗开发的实时文字转录功能,考虑到现场有不少老外,这项实时转录技术还加入了“翻译”。新浪科技记者说:

实际上,现场的效果是,那些老外看到有“英文字幕”时,纷纷摘下了同声传译设备。

结合上个月阿里云栖大会上阿里云人工智能程序小Ai的出色表现,微软Skype几年前秀过的即时翻译,以及讯飞借助老罗锤子M1的发布会又重新火了一把,可以看到,能实时转录语音为文字,并将其格式化甚至翻译成多国语言的技术,近一两年来正在迅速成熟。

看起来,国内外人工智能巨头联合绞杀速记员和同声传译这两个行业的日子已经不远了。我们下面简要的回顾一下巨头在即时语音识别方面的最新进展。

百度

百度语音开放平台上线于2013年10月,公开资料显示,目前每日在线语音识别要求1亿4千万,在线语音合成每日请求达2亿,植入语音API的开发者数量超过14万。

此前,百度语音开放平台已经在手机、家电、汽车和通讯服务等多领域实现合作覆盖,具体合作伙伴包括联想、中兴、长虹、康佳、SONY、特斯拉、途胜、惠普、艾米通讯、携程,手机QQ阅读(!)等。

在百度首席科学家吴恩达领衔的研发下,百度语音识别准确率高达97%,深度语音识别系统(Deep Speech 2)入选了麻省理工《科技创业》杂志评选的 2016 十大突破技术。

今天百度开放的语音接口包括:

  • 情感合成:为合成语音“加入情感”,接近真人发声效果。百度今年早些时候曾利用此技术,复原已逝明星张国荣的声音。
  • 远场方案:语音识别距离增加到3-5米。已在上海肯德基旗舰店投入应用的“小度机器人”人机语音交互点餐,可远距离随时应答。
  • 唤醒二期技术:将设备的语音唤醒率提升到95%以上,同时更省电,误报更少。
  • 长语音方案:提升长时间语音识别的准确率问题。适用于内容记录、智能客服、视频转写等场景。

搜狗

王小川向新浪科技展示了自己手机里的最新Demo:一个实时传译功能。系统把人说的话翻译成英文,并且念出来。然后新浪科技记者测试:

王小川:我给你们看一个东西,这都是内部的东西,都没有发的。“今天我们参加了乌镇世界互联网大会”,点这个键,然后在这儿,这个“翻译”……这个网比较慢,它翻译这个东西了,内部你可以输入中文然后往英文转。

新浪科技:“好的,这个新产品,是不是意味着以后出国采访再也不用带翻译啦?”

软件:OK, this new product, isn`t it meant to be able to go abroad and do not have to translate it again.

王小川认为,从积累的大量语料转向人工智能是自然而然的,并会很快宣布公司的新战略。就在昨天,这款产品也正式对公众发布

2016年下半年以来,搜狗在输入法中推出了“快速分享”和“智能推荐”,解决聊天场景中不同App切换的问题,其后,搜狗在输入方式上,开始把此前隐而不宣的“语音输入”加强权重,并开始在公开活动上,频频展示目前“实时转录”的速度和准确率。

阿里

阿里云将机器人型AI交互界面命名为小Ai,并且它的亮相早就不是新闻。它曾经“预测”过《我是歌手》冠军归属,但在背后技术不透明的情况下,很难判断它是真的预测成功还是一个营销手段。然而,在今年云栖大会杭州主会场和各地分会场,在直播过程中普遍采用了小Ai的即时文字传译技术,这倒是展示该机器人实力的一个例子。

我也参加了今年的云栖大会,虽然总体运转良好,但小Ai出现的一丁点错误都被揪着不放,比如我印象比较深的两处:所有数字都转换成阿拉伯数字,“几十亿”被写成了“几1000000000”;众多中文中夹杂的英文没有准确翻译出来。

因此,主办方没有给最先上台发言的领导提供机器生成的字幕,在郭台铭讲到一半的时候也撤去了字幕。但总体上讲,这已经够让同传们胆战心惊了。

讯飞、微软等更多玩家

在锤子M1L的发布会上,锤子创始人罗永浩演示了讯飞语音输入,让成立十几年的讯飞一夜之间爆火。隔天早盘,科大讯飞高开后迅速上冲,最高涨幅达4%,随后持续回落,截至收盘时涨幅0.96%,报29.42元/股。

这次发布会至少让不沾科技新闻的财经界看懂了人工智能。当时有分析说,“这次科大讯飞在锤子发布会上被宣传,比任何投放效果都显著,因为观看这场发布会的人动辄是百万量级的,并由罗永浩这样一位业界有影响力的企业家说出,必然会对公司产生非常积极的影响。”

然而,所有这些突然开始秀即时翻译和语音识别的公司,都得叫微软一声老师。早在2014年,微软就在公开活动演示了Skype Translator的技术原型,当时可以把现场说出的德语语音转化为英语的文本。此后,微软还在北大一次活动中展示过中文语音识别并翻译成英文的效果。

随着Skype Translator技术不断提升,已经达到商用水平,微软已经将其整合至面向所有用户的Skype软件中,甚至在网页版也可以使用,用来翻译打字文本。

微软还将这一翻译技术打包用于商业应用,结合Dynamics CRM和Cortana的计算能力,厂商可以打造一个人工智能的聊天机器人,并以中英双语秒速回答客户提出的任何问题。

此时,主要是人工翻译的同传领域也经历了一波“互联网+”革新,比如小尾巴、翻译通这些沟通真人翻译服务的应用。百度和有道翻译也各自有付费人工翻译服务,这些服务都力争提升响应门槛,将真人接听电话给出翻译的响应时间缩短到30秒。

但是,最终摧毁速记和同声传译行业的,可能是人们文化水平提高带来的识字率提升,以及普遍拥有部分英文听说读写能力的现实。毕竟,语言的作用是沟通,而不是做语法题。只要能完成沟通目的,人们往往并不在乎语言用词有多精确,这就给了人工智能巨大的缓冲空间。

人们可以容忍机器识别和翻译给出的不完美,但免费的处理结果,因此人工速记和翻译,很有可能在机器赶上人类的高水平以前,就早早地萎缩到近乎消亡的地步了。