sound

编者按:最近,大大小小的厂商都加入了智能音箱战局。那么,智能音箱是不是一门好生意,这会成为硝烟弥漫的战场还是歌舞升平的乌托邦?为此,动点科技近期推出了专题【智能音箱的理想国】,我们将从硬件、评测、市场、投资人和它背后的人工智能、语音识别等方面进一步呈现它。作为此次专题系列文章之三,本文会从创业者的角度带大家来一起解读智能音箱。

智能音箱作为语音智能当下的主流前沿,包括BAT在内的互联网公司都在这一市场一决雌雄。而专注语音识别的灵伴科技作为技术型公司剑走偏锋,聚焦B端市场,独创的AIssS(人工智能及服务)理念,将人工智能转化为劳动力。

不急于尝鲜智能音箱领域

前几天,朋友圈热传了一篇名为《创业公司做智能音箱为什么九死一生》的文章,其中阐述的观点正中灵伴科技CEO陈博的下怀,他认为创业公司若要落地智能音箱产品,基本等同于“冒死”、“躺枪”和“做炮灰”。

两年前,陈博说过,脱离了噱头和概念才是产品的未来,如今看来,在人工智能初期阶段,这种浮躁现象并未得到改善。“BAT为了布局,是可以长期烧钱的,而一些公司为了跻身智能音箱领域,拿别家的技术东拼西凑,安上自己的壳子,用户体验不理想。”

从人机交互的技术角度来看,语音识别、语音合成和语音理解三要素缺一不可,“用户对智能音箱的需求不只是用来播放音乐,他可能会问天气怎么样,帮我查一个地址或订单”。那么,智能音箱语音交互的第一步骤就是识别声音源,需要麦克风阵列的支持,“亚马逊Echo的用户体验好,主要是在麦克风阵列的突破。”

陈博提到,国内成熟的麦克风阵列产品和提供解决方案的公司并不多,有些公司正处于技术攻关阶段。特别是传统技术的很有限,要保证识别准确率,这就意味着不能“吃老本”,必须在核心技术上进行创新。

一直以来,语言理解是语音交互始终绕不过去的话题。陈博解释说,深度学习会让机器变得越来越聪明,将大量的语料数据导入后,会针对这些数据进行学习和训练,但为什么语言理解仍然不理想,是因为文本数据在不同的场景变化太大,很难靠语料收集达到一个很好的结果,这其中包含大量的语言省略、指代和缩写的问题,“譬如我说昨天太好玩了,机器肯定不知道我所指代的事情。”

而创业公司的一大硬伤是缺乏资源,“譬如音乐的版权,播放无版权的音乐会不会被对方告。”陈博表示,亚马逊、Google、苹果做智能音箱,是因为它们有自己的生态圈,智能音箱只是其中的一个环节,恰恰智能音箱又是人机交互的一个入口,所以会有更多的互联网公司涌入这个赛道,“可能前两款产品很弱,第三款产品就完善了,这是一个长期的布局,如果创业公司也这么玩,可能能在第一款产品就死掉了”。

陈博定义的灵伴科技专注技术而不做产品,他把灵伴看作自媒体,自媒体以内容为王就可以生存下去,因此,“创业公司一定是To B的玩法,不是To C做音箱这种消费产品,在某一领域创造你的产品价值,深耕这一领域,就必然会带来现金流。”

chenbo
灵伴科技CEO-陈博

摸着石头过河

2014年2月,陈博带领团队在中关村创建了专注语音交互的灵伴科技,其中不乏清华北大的博士,核心研发团队先后在2012年和2013年SIGNAN中文信息处理国际评测,简体中文句法分析两项任务均获得第一名;“Blizzard Challenge”国际语音合成大赛的第一名。正是对比赛的感悟才促成他们创业的落实,“我们最初参加比赛仅仅是证明自己的技术,后来认为做研发最终还是要服务于产业,如果研发项目不能落地成为产品、成为服务,那你的研发没有任何意义”。

创业和研发无法相提并论,研发上钻研算法即可,而对创业来讲,主要依靠产品的综合能力、市场和渠道的能力。

陈博坦言,灵伴团队过去走过不少弯路。2016年年初曾面向C端做了一款App——众摇。具体说来,用户在观看电视广告时,通过启动众摇App,摇晃手机,系统会自动识别广告声音,并向用户手机再推送一个相关广告,最后给用户一个现金红包作为回报。团队希望通过大小屏的互动增加商业价值,以此为基础实现盈利。

“众摇”可以实现3秒内的场景互动,陈博回忆说:“技术团队当初花了很大精力来做优化,众摇App推广的3个月后,摇动次数的最高峰值是一天300万次,我们平台的支撑做得都很好“。

但团队的顶层设计过于理想化。

其一,团队没有认识到电视在家庭场景中被日益淡化,传统有线电视节目正在被互联网电视盒子取代,用户更偏好于收看点播节目,而非电视直播,造成用户规模先天不足。

其二,灵伴从广告商支付的资金拿出一部分,作为红包来刺激用户使用,短期内可以支撑,长期来看,创业公司没有那么多钱可以挥霍。

其三,创企项目PK不过一个生态,摇一摇只是其中一环,最重要的是靠线下商家来做支撑,这需要吸纳大量的人力来发力运营,创业公司必须大量融资,向美团、大众点评一样去做地推,还要不断的烧钱,抢占市场。

最终,短暂上线5个月的众摇App被灵伴团队亲自关停,这次的大胆试错,坚定了灵伴最初的规划方向。

上线智能社会服务云平台,正确率达95%

结合自身优势和企业定位,灵伴科技推出了国内首家“睿思AlaaS”智能社会服务云平台,陈博习惯称之为“呼叫中心”。其通过智能融合“语音交互技术”和“云呼叫平台”打造的“虚拟劳动集市”,“雇佣”虚拟坐席机器人为客户提供在线语音交互服务。这套方案已经成功应用于保险公司、银行、电商平台证券公司等场景。

举例来说,用户购买了保险后,虚拟机器人会选择时间对其进行电话回访,向用户确认身份,询问是否投保,条款是否知晓等等。陈博向记者介绍,保险行业整体的业务量主要集中在第一季度,二三季度是淡季,淡旺季业务量的波峰波谷相差几十倍,“不可能因为业务量激增进行大规模招聘,到了淡季再进行裁员”,基于这一行业特征,灵伴顺利的与多家合作方签约,通过上线这项服务,话务员的工作压力得到明显削减。

陈博谈到,目前智能客服以文本客服为主,但并没有体现出产品价值,文本客服虽然取代传统的FAQ(Frequently Asked Questions)页面,并且有很大的体量,但文本客服其实是被“激活”出来的,“譬如用户想要投诉,文本客服就无法解决这一问题,最后还是会打人工客服,所以我们上线呼叫中心,就是切实解决用户的问题”,这也是产品价值所在。

至于潜在的竞争对手,陈博并不过多担忧,“呼叫中心”是服务于B端的项目,目前BAT还没有涉足该领域”。他同时表示:“这是一个需要深耕的领域,每个行业的呼叫中心都要具备不同的专业知识,而这些专业知识就是这个行业的壁垒,所以我们深耕这一领域,就能实现产品价值。”

近一两年来,深度学习技术获得突破以后,行业整体的技术门槛下降,但距离成熟技术相比还有很漫长的路要走。陈博表示,“睿思AlaaS”目前的正确率达到90%,针对特定场景进行再优化可以实现95%的精准度,这一数字已经处于人机交互的行业前列。

灵伴科技目前已和保险、银行、运营商等展开深度合作,短期主要以出售服务的方式为主,预计公司将在年底实现收支平衡,明年实现盈利。今年下半年,灵伴科技将发布其自主研发的麦克风阵列,产品线定位在B端市场,针对不同的产品规格,提供适用于智能机器人、智能音箱等产品的麦克风阵列解决方案。未来,灵伴还将在智能医疗、汽车伴驾、智能硬件等方向展开布局。

历时3年时间,灵伴已成长为技术成熟型公司,近60人的团队,技术岗占比80%。眼下,灵伴科技将侧重于市场、产品方向,并进行相关岗位的人才招募,是公司的业务拓展和。

资金方面,陈博透露,灵伴将于下半年启动B轮融资,融资金额不会低于A轮。2014年,灵伴获得了千万级别的天使投资,2015年A轮融资近亿元,具体数字对方暂未透露。

题图来自123RF