mor

现如今,人机对话的交互技术已不再新鲜,常见的像苹果的 Siri、微软的小冰等都能在你空闲的时候陪你唠嗑。近期,甚至就连美国白宫也跟随潮流推出聊天机器人来与民众交流。“只说不做的对话机器人就商业化角度而言,短期内显然用处不大。若能把机器人从纯粹的聊天层面提升到能为用户去完成一些指定的任务,那才是人机语音交互的价值所在,而这重点就在于机器背后语义引擎对人们话语的理解上。” 蓦然认知 CEO 戴帅湘表示。

所谓 “语义理解”,简而言之就是让机器懂得人的话语、理解人的意图,并反馈给用户相应的答案或者内容,来解决用户的需求。在百度从事 9 年自然语言处理研究的戴帅湘和他的团队推出的人机对话引擎 Mor,就类似于一颗能思考、决策的大脑,它想要做的就是让机器更好地理解人类语言,从而帮助人们办理各种业务。目前该引擎主要垂直应用于智能车载、智能家居、智能客服三大领域。

其实,Mor 引擎就类似于 Amazon 的智能音箱 Echo 背后的 Alexa 引擎,但与 Alexa 不同的是 Mor 目前主要专注于中文语义理解上,是一款面向 B 端、主打语音交互和决策的引擎。拿智能车载来说,只需将 Mor 引擎的 SDK 跟汽车进行连接,它就可以帮用户实现导航、订外卖、订机票等功能。由于这些任务通常非一句话所能完成,所以这就需要 Mor 能根据不同场景的上下文来实现语言理解和多轮对话,不断修改需求,直至完成任务。

zhinengchezai

而其难点就在于多轮对话的语义理解上。多轮对话从字面上理解,就是在单轮对话的基础上引入了上下文,因此它当前的状态不仅取决于上文,而且还可能取决于上上文或者更远的上文。

实际上它就是一个有限状态机(表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型),会根据用户不可预测的对话进行不停的构建和调整。在这当中每一句对话都会自动生成一个状态节点,同时也需要引擎在这个节点上生成一个用户可理解的反馈方式——其数据体量之大可想而知。

戴帅湘告诉动点科技,蓦然认知有着自己独特的语义理解模型,在构建认知网络中的节点上,每个节点都能具有语义解读和认知能力,因此 Mor 可以快速地适应新的场景。例如,用户要找天安门,那么这个场景涉及到的时间、地点、路线、种类等常识会直接复制到已有常识,并且会根据天安门这个词的种类,来快速抓取网上的相关内容,最后进行与服务商接口的对接。

由此可见,语义理解技术的关键还在于自然语言处理跟丰富的知识库上。戴帅湘介绍,目前其知识库的搭建,主要来源于在网上常识数据库中的抽取和商用购买上,以此来优化模型参数。未来 Mor 还将通过与用户的交流,建立起个性化的数据训练,实现功能的精准推送。

zhinengjiaju

在谈及语义理解的准确度上,不可不说的就是语音识别,也只有在语音识别准确的基础上,才可以保证语义理解的判断。而语音识别的准确率又会受到用户口音和环境噪音等因素的影响。戴帅湘表示,Mor 的语音识别和语音合成,部分接入的是其它引擎,蓦然认知主要研发的是其中语义处理部分。在语音识别准确的基础上,垂直场景中单轮对话 Mor 的准确理解率在 98% 左右,而在多轮对话中也可达到 90% 的准确率。

与国内车联网市场中安吉星、G-book、inkaNet 这样需要付费接入的引擎不同,Mor 在盈利上面的打法主要是通过技术授权、流量分成、精准广告推送来实现。然而该市场想要快速切入也并非易事,国内就有百度、搜狗、科大讯飞等这样的巨头虎视眈眈,国外又有亚马逊、谷歌这类大企业的冲击,因此这就需要考虑如何去实现产品的差异化竞争。戴湘帅说,针对目前市场的行情,我们就智能客服、智能车载、智能家居三大应用场景分别分为短期、中期、长期三步走的战略布局方式。

另外,戴帅湘还告诉动点科技,他们希望进一步深度对接更多服务商,未来在加入声纹识别技术的同时,更好地实现快速的场景移植和个性化定制。

据悉,蓦然认知为 2016 TC 北京创业大赛的 15 强项目。在成立之初,它便已完成 200 万美金的天使轮融资,目前 A 轮融资也已洽谈成功,将在近期完成。

图片来源于蓦然认知官网