sibichi yukai

 近日,人工智能企业思必驰召开发布会,发布了旗下全新产品——DUI 对话开放平台。期间,思必驰首席科学家俞凯关于对话智能的发展趋势做了一场名叫“让对话智能流通生长”的演讲,俞凯表示在过去的4 年当中,他们为B端客户做了大量定制开发工作,帮助他们把语音对话产品的体验做到极致,并在这个过程中发现了人工智能行业的3大趋势:

  • 1、时代产生了由 PC 互联网时代到硬件物联网的时代的变革。
  • 2、单纯深度学习和大数据对人工智能性能提升的空间正在变小。
  • 3、行业专业化分更加明显,企业做9 分已经不能够吸引客户了,非 10 分不可。

另外,俞凯还表示随着客户个性化需求越来越多,能够提供个性化自主定制的对话开放平台已经成为行业必需。

以下为俞凯的具体演讲内容(有节选):

为什么我们讲对话是最核心的东西?为什么思必驰不是一家语音识别公司?而是一家人机对话公司。

其实真正的一个完整的对话智能技术,不单单是语音识别,还涉及到识别、理解、合成,这是一种联合性的技术,在过去几年,我们一直在推一个概念,就是单点的技术不管用, 系统级别的技术才管用。

最开始有朋友说,我找一个语音识别的公司就可以了, 但是后来发现真正想做到好的用户体验就需要去调,需要调很多的东西。从我们的角度会发现,对话智能作为一个完整的系统来说,需要同时具有我 们整个一圈完整的技术,才可以达到极致性的用户体验,否则就会出现掉链子。

在这种情况下来说一说,在过去这 4 年当中,我们做了大量定制性大项目的开发工作,帮助他们把产品的体验做到极致。在这个过程当中我们发现,有个比较有意思的趋势出现了:

1、时代产生了由 PC 互联网时代到硬件物联网的时代的变革。

在今年 5 月份的时候,全世界最著名的 IT 公司有一个统计,到今年的年底 为止,全世界所有的智能设备数量将达到 80 多亿,超过全世界人口的数量,到 2020 年,要超过 200 亿。在这四年当中,尤其是从 2014 年开始,智能硬件终端 有了一个非常大的增长。而这个过程,使得语音交互界面得到了前所未有的重视,我们可以看到,从亚马逊到微软,到谷歌,到苹果,在这个过程当中,各自都产生了一系列的变化,推出了面向智能硬 件的语音交互助理来适应这个时代。无论是由软件支撑还是由最终硬件的终端,我们都会发现, 这变成了一个时代的变革,这个入口已经不可逆转的成为了我们的未来。

2、2012 年的时候很多人开始讲,深度学习+大数据就是未来,真的是这样 吗?说是,是因为现在无论如何都缺少不了深度学习和大数据。说不是,是因为单纯的深度学习和大数据,没有专业化的支持和专业化的调整还不能发挥作用。

在这 4 年当中,我们所做的一些工作就是把一些结构化的模型放在一般性的深度学习和大数据当中。大家看到下边这张图,国际上一个特别著名的数据集, 从上世纪 90 世纪开始就成了最大的关注点。在 2015 年,我们通过结构化的深度学习将错误率降到了 9.7,2016 年又降到 7.1,这个不是简单的深度学习,而是把深度学习在结构化的方向做了进一步的推进达到的。

sibichi

2015 年底,2016 年初的时候,做了一套所谓的快速解码技术,它把我们的 语音识别在同等模型情况下识别搜索的速度提升了 5 到 7 倍,在不同的模型下, 综合的速度提升达到了 20 倍,这意味着什么?意味着我们有可能给一些用户定 制本地化、通用模型的方面取得重大的进展。再过一段时间,我们会相信,通用的本地模型将成为可能,不用再管网络了。 这都不单纯的是深度学习的功劳。

而在在语义理解方面,我们采用所谓的双向的神经网络,加上一种聚焦机 制。大家可能听说过注意力机制,我们把它改成了聚焦机制。在语义理解当中也取得了标准错误集当中最高的精度。

我举这些例子是想说明,在这 4 年当中,我们观察到一个趋势,就是技术不会止步,技术的发展会非常快。最开始,单纯的靠深度学习加大数据,人工智能性能能够产生很大的提升,但这样的空间已经变得越来越小了。现在,它的持续增长就需要依靠自适应模型,并从数据驱动到知识驱动,需要一些新形态的,深度学习后时代的技术来进行支撑。

3、专业化分工明显

我们发现,在整个应用的层面,关注对话并且以对话为核心的企业中,有的是数据驱动,有的是一部分专业技术驱动,有的是产品应用驱动,这是一个趋势,这个趋势是专业化分工的趋势。

更具体的,在产业链上,它的专业化分工也变得更加明显了。整个产业链变成了基础的支撑层、智能交互层、系统应用层,各个方面专业化的公司变得越来越多。这样专业化的分工是什么?你有一家公司你可以去搞语音识别,你把这件事情做出来大家都找你服务这样简单的逻辑已经不成立了,他需要的是,你在这个领域做到的不是 9 分,非 10 分不可。只有绝对专业化的公司才可以把事情做到极致。为了整体人工智能性能得到提升,专业化的分工、专业化的结合已经不可避免了。

行业需要更好的个性化定制服务

我们做了 4 年完整的定制服务,我们发现,每一家都希望有个性,每一家都希望有 1、2、3 这 3 个功能组合,但是在第 4 个的时候希望可以变一下。比如说在语音交互的模式上, 有人希望把命令做透,有人希望做问答,有人希望做闲聊,有人希望多轮,有人希望一轮最好,在模态上有语音、文字、触感,有不同接入的需求。个体性化定制的需求越来越多。

我们会发现,在现在能够提供语音交互技能定制的平台大体上有两种不同的思路。

  • 1、我提供封闭的解决方案,反正所有的东西我都来帮你优化。首先,我们 要有全面的技术,在每一个技术上是不是有深厚的技术性的积累,并且有很好的 产业落地的能力。要求是一家独大,而且是由公司自身全包全揽的做定制。你想加一个新词,好,但这得按月进行词表、语言的更新。
  • 2、另外一种思路,是我们现在在做的 DUI 的思路,就是开放,形成一个生态圈。

是不是所有人都可以做这件事?是不是我给 你一个 SDK,你去调用,改一下,就可以让对话定制了?显然不是这样;1、你要做技术的定制,得先做技术的拆解,做完技术的拆解之后,你的技术指标是不是还可以达到以前的(封闭系统)水平;2、有技术的分解,就要做模型的定制,还要做规模化的扩展,这才可以使平台有直接技术支撑,而不只是一个概念。