86482027 - equalizer blue sound wave. voice recognition. vector.

2016年10月,锤子手机新品发布会上,罗永浩发布了一个名叫BigBang(大爆炸)的手机功能,BigBang会将你按住的那一段落文字全部“炸”开,按照语义智能拆分成易于选取的独立的字和词,从而帮助用户更方便地对文字进行选择复制。虽然BigBang是当年锤子手机发布会上的最大亮点之一,但被很多人忽略的是,该技术的提供方却是一家当时成立几个月的初创公司——三角兽

动点科技了解到,成立于2016年2月的三角兽主要为To B类合作方提供聊天、多轮对话和中控决策服务,一年多的时间,三角兽除了跟锤子手机的合作以外,还包揽了新浪、中国移动、广发证券、微软、百度、小米、腾讯、新世界集团、恒生电子、Rokid、Jibo、光明网等在内的合作伙伴。而且,三角兽目前已经完成三轮融资,分别是2016年4月洪泰基金和天善资本的1000万人民币天使投资;2016年9月君联资本和海尔赛富的2000万人民币投资;以及2017年1月东方网力旗下博雍基金、恒生电子和索道资本的5000万人民币投资。

bigbang

一年多的时间三笔融资,三角兽的能量来自哪?

难度大、效果差,语义理解反而是初创企业的机会

正如我们之前的报道中所提及的,随着苹果推出Siri语音助手、亚马逊推出内置Alexa语音助手的Echo智能音箱,语音智能已经成为行业发展的必然趋势,目前仅在国内就形成了一大批以BAT、科大讯飞、思必驰、云知声等为代表的语音技术公司,而三角兽与这些企业最大的不同则是其更加关注于语义理解。

“不管是语音识别还是语义理解,语音相关技术中的各个细节都面临着巨大的挑战。”三角兽首席科学家王宝勋告诉动点科技,“在语音识别领域,其面临着远场识别、噪音消除等问题;而在语义理解方面,如何让计算机理解人们多种多样的说话方式也是一个极大的挑战。不过相比之下,语音识别的进展要远远大于语义识别的进展,语义识别由于涉及到自然语言理解,直到最近几年才逐渐热起来。”

王宝勋认为,语音识别技术在近几年确实取得了突破性的进展,而接下来,语义识别将成为新的刚需点。

“基于深度学习的语音识别和图像识别是从基本的信号输入向上构建模型,其特征提取过程与任务直接对应,所以模型比较容易达到预期的效果,然而,语义理解往往需要对输入的文本进行语义表示,然后再基于这种表示构建模型,因此在特征表达层面就比前两者更难。”通过与图像识别技术对比,王宝勋还将语义理解定义为人工智能领域最难解决的问题。

“诸如翻译,我们看见一段英文,其实首先要将这段引文转换成脑海中一种与文字无关的概念,然后通过这个概念将英文翻译成中文。而这里的那个与文字无关的概念便是语义。语义在人脑中的存在形式尚不明确,虽客观存在,但人类至今仍然无法准确定义或者量化它,这也使得语义理解变得最难。”

以机器学习为手段,提供对话式交互解决方案

据了解,三角兽目前在任务型对话与闲聊型对话方面都有所涉足。

关于任务型对话,王宝勋表示其首先会准确实现相关任务,其次三角兽会将任务型对话中的本质问题提取出来,在此基础之上可以实现领域的迅速迁移。“比如将购物类的任务型对话迅速改成购票类的任务型对话。”王宝勋举例解释。

而对于闲聊型对话,王宝勋认为这在人工智能领域异常重要,“如果设备在完成任务型对话的基础之上,还能跟用户闲聊,这便能拉近人与机器之间的感情距离,那这真就是人工智能,如果不能,那就仅仅只是机器。”

据了解,构建人机对话系统主要有3种方法:

  • 一是纯机器的方法,即利用机器学习算法为核心,以大数据为驱动,让机器在海量数据中自主学习如何对话;
  • 二是纯人工的方法,即利用人力为常用问题匹配答案;
  • 三是半人工半机器的方法。

王宝勋表示,任何公司在语义理解技术方面都有人工的成分,但关键得看其中人工与机器学习的占比。而三角兽便是一家以机器学习占主导的语义理解企业。

王宝勋表示三角兽之所以选择机器学习的方法,主要是因为其可以使得训练出的对话系统具有更强的可扩展性。“人工或许可以匹配1万组对话,但10万组如何匹配?更何况人与人之间的对话模式几乎是无穷无尽的。”

sanjiaoshou

另据介绍,三角兽目前除了采用被誉为“黑盒”的深度学习算法外,也在研究更多“白盒”算法,用一问一答的对话训练机器学习总结其中规律性的东西。

而大数据方面,王宝勋表示目前三角兽的对话数据主要来自于网上的公开数据,比如网络论坛等。“虽然这些数据都是公开的,任何人都能爬虫得到,但这种对话跟真实的人与人之间的对话还是不一样的,其中很大一部分数据都是没有用的,如果直接用于机器学习那绝对就是一场灾难,所以后期对数据的梳理去噪也非常关键。”数据显示,目前三角兽拥有 500 亿组人与人之间的对话数据(未标记生语料),从这些语料中清洗出 150 亿,系统学习了大概 70 亿。

功夫不负有心人,三角兽的努力也使得其产品在竞争中得以脱颖而出,“比如我们与小米电视合作,可以帮助他们很好地查询一些很复杂的问题,比如我们可以将‘半月传’这是个错误词,正确识别成《芈月传》等。我们可以让人机对话很舒服很随意,这是现在其他人工智能公司很难做到的。”

关于落地,对智能音箱持保留态度

在具体的场景上,三角兽的技术主要落地于以下三方面:

  1. 企业服务,包括互联网企业传统企业、媒体、金融、客服等领域。主要解决交互方式僵化和有效信息利用不足等问题,为企业入口注入生命,加入bot交互能力和主动学习反馈的能力。比如为新浪打造私信聊天与新闻服务的新浪机器人等。
  2. IoT智能终端,包括智能家居、智能车载、智能手机、智能机器人和音箱等。相当于为智能硬件装上大脑,让机器听懂人话并作出回应,满足用户直接和潜在的需求,提供陪伴、信息和服务。比如为Rokid音箱与小米电视提供技术支持等。
  3. 泛娱乐,例如模仿人物性格,赋予游戏、动漫角色、虚拟偶像“生命”,以及明星偶像的机器“分身”,每个粉丝都能可以随时与喜欢的角色互动。三角兽为JIBO机器人做的中文系统,就是打造了一个年轻的、邪萌的男性风格。

“人工智能语义领域一下子就火起来,其中绝对是有泡沫的。”王宝勋认为过热的宣传与资本的追逐会导致人们产生过高的期望,而一旦这个期望没有实现,行业就可能迅速冷落下来,“人工智能发展的前几次热潮便是这样冷落下来的。”

而至于如今技术进步是否已经达到了人们的期望?王宝勋表示,“作为研究者,我们对行业发展始终是报有希望的,亚马逊Echo做得的确已经非常有味道了。 但实际上离成为人的私人助理的目标存在着很大的距离,它还有很多缺陷,离人们期望的强人工智能有差距,但我们应该容忍这种阶段性的不成熟,而且现有技术是可以落地应用的,从我们和合作方的诸多产品也可以看出来,我们也期待行业逐渐成熟起来。”

至于当前大火的智能音箱是否能够持续火下去,王宝勋则持保留态度。“现在说‘换一首音乐’等控制功能已经做的足够好了,但对于诸如‘换一首减压的音乐’之类的可能做的还不够好。音箱在中国并不是家庭中的必备,相反,在中国,大家更需要的是电视,所以智能音箱想要在中国普及,用户的教育也是一个很大的问题。”

“所以对于智能音箱在中国的前景,还需要看看今明两年音箱行业的具体发展情况,除了音箱,手机,智能家居如电视,都是值得期待的智能入口,我们也针对这些做了解决方案,让硬件真正智能起来。”王宝勋表示。

值得一提的是,人才方面的优势也是三角兽做语义理解的底气所在。

据了解,三角兽的核心团队主要由百度度秘微软小冰等的成员组成,三角兽创始人兼CTO亓超在自然语言理解领域扎根长达十几年时间,他曾在第一代微软小冰中负责核心算法、也是百度度秘开放域聊天负责人、聊天及人机辅助负责人;CEO王卓然同样来自百度度秘团队,曾是百度度秘中控决策负责人;而王宝勋曾任微软小冰机器学习科学家。目前三角兽约有员工九十多人,而且大部分为具有相关工作经验的算法工程师。

题图来自123RF