“在这个时代,如果想要获取信息,你很难不通过嘴。”思必驰首席科学家、联合创始人俞凯在上海市北·GMIS全球人工智能峰会的现场演讲中的短短一句话,却总结了目前人类的交互习惯发展趋势。

思必驰首席科学家、联合创始人俞凯

在智能终端时代,有人认为AR眼镜或许会是人类需要的“最后一块屏”,这种感觉在语音交互技术出现后可能表现得更加强烈。前瞻产业研究院发布的《2018-2023年中国物联网行业细分市场需求与投资机会分析报告》曾发布了初步估算的数据:2017年全球物联网设备数量达到84亿,比2016年的64亿增长31%,2020年物联网设备数量将达到204亿。在这些智能设备中,屏幕已经越来越小,而语音交互能力几乎成了标配。可见,智能语音交互拥有极具诱惑力的诺大市场。

不过,在这个百家争鸣的科技时代,有趣的不仅是宏观的市场增量。企业在实践摸索出规律,并对未来进行大胆、前瞻性的判断,才更值得津津乐道。作为语音技术领域的平台交互型公司,同时也是行业前列的探索者,思必驰对于如何打造更加人性化的语音交互技术也提出了自己的新见解。

“通用的语音识别率基本上能到95%以上,语义识别率能到90%以上。但是语音交互本身是一个链条,尽管每个体系可达到90%的可用度,但是技术加在一起的整体可用率会降低很多。”俞凯先提出了现在语音交互行业面临的技术问题。他认为,导致问题的原因主要是“没有做联合优化”,即大家都是在每个任务上是独立优化。为了提高整个语音交互技术的可用性,思必驰实行了技术上的全链路,如以语义理解为目标来优化语音识别,即目标不是看字的错误率,而是看理解上的偏差。简单来说,思必驰的技术全链路AI可以把语音交互技术中,前面产生的错误在后面环节中自动做纠正,提高整体的可用率。

当然,除了技术层面的优化,优质的语音交互技术还需要产品设计的加持,以保证体验升级。此前,有很多基于语音交互技术的产品,如娱乐、教育机器人等遭到了用户的“抛弃”。这给企业带来了技术边界与用户期望之间关系的深思。我们目前的语音技术究竟足够支撑多强大的产品?什么样的语音产品会减小用户的失望程度?

“技术边界和用户期望平衡的核心点是产品设计。”俞凯表示,合理的产品设计可以有效地“扬长避短”。他认为,以目前的技术发展状态来看,需要做一些用户可配合的场景应用,即场景的可控性较高。“让用户在合适的情况下去做一些交互,那么产品的性能就比较有保障。”他以思必驰和顺丰合作的语音下单机器人为例说明:这就是典型的比较窄的任务,用户目的明确,所以用户的期望比较可控。总之,在技术发展的阶段中,企业不仅在自己做产品的时候需要实事求是,对于用户也要诚实。

值得一提的是,思必驰主要是为企业和开发者提供自然语言交互解决方案,包括DUI开放平台、企业级智能服务、人机对话操作系统、人工智能芯片模组等。那么,对于思必驰而言,他们如何基于自身技术实力为企业类客户带来新体验?

俞凯称,近几年人工智能产业链发生了比较深刻的变革——专业化分工的加速。在这样的背景下,人工智能企业分为三层,一是基础技术支撑层。他们就像发电厂商;二是中间层。他们以提供技术赋能为核心的智能交互层,像是输电的企业;三是应用层,集成各种各样不同的从语音到图像各种各样不同的AI技术,形成综合的产品解决方案,就像做电器的企业。而智能交互层出现了一个主要矛盾,即:越来越强的通用技术,与使用者高度灵活化,高度可配置的个性化需求之间的矛盾。

“面对这样的矛盾,作为平台型的驱动企业,思必驰希望打造可定制的对话式人工智能。”俞凯说道。

“定制化”并不是新鲜词,但是思必驰打造的可定制的对话式人工智能,兼具定制化和可规模化。众所周知,一般来说,定制化意味着很难规模化。但俞凯表示可定制的对话式人工智能就像是“柔性制造”技术,可定制,可批量生产,可实现“千人千面”。

关于具体实现可定制的对话式人工智能的关键点,俞凯从三个方面分享:

  • 一是工程支撑方面,首先是以全链路对话交互技术为核心,实现“高可用”,即让更多的人可以定制,另外也要支持定制地规模化;
  • 二是需要相应的资源支撑,比如识别领域,需要方言、多语种、多个精细化语义领域的支撑,才能够形成完整的模型;
  • 三是算法支撑(个性化智能自适应)。智能地自适应要解决三个难点:一是目标发现,即向谁做自适应学习。二是小数据的自适应,传统的深度学习需要喂大数据来训练模型,而现在需要用很小的数据实现。三是在线的学习更新,即当语义理解不精确,或者出现语音识别错误时,人和机器在真实场景当中可继续交互下去,就需要一个聪明的决策。机器系统怎样通过问话,或者通过引导使对话更平滑地继续下去,能够更好地把意图推理出来。

“未来我们看到的对话智能,并不是一种通用的技术,而是可以在每一个产业里面有自己独立个性的定制化对话式人工智能。”俞凯说道。