【智能音箱的理想国】灵伴科技:专注语音交互的我们为什么不做智能音箱?| 创业

sound

编者按: 最近,大大小小的厂商都加入了智能音箱战局。那么,智能音箱是不是一门好生意,这会成为硝烟弥漫的战场还是歌舞升平的乌托邦?为此,动点科技近期推出了专题 【智能音箱的理想国】,我们将从硬件、评测、市场、投资人和它背后的人工智能、语音识别等方面进一步呈现它。作为此次专题系列文章之三,本文会从创业者的角度带大家来一起解读智能音箱。

智能音箱作为语音智能当下的主流前沿,包括 BAT 在内的互联网公司都在这一市场一决雌雄。而专注语音识别的 灵伴科技 作为技术型公司剑走偏锋,聚焦 B 端市场,独创的 AIssS(人工智能及服务)理念,将人工智能转化为劳动力。

不急于尝鲜智能音箱领域

前几天,朋友圈热传了一篇名为《创业公司做智能音箱为什么九死一生》的文章,其中阐述的观点正中灵伴科技 CEO 陈博的下怀,他认为创业公司若要落地智能音箱产品,基本等同于“冒死”、“躺枪”和“做炮灰”。

两年前,陈博说过,脱离了噱头和概念才是产品的未来,如今看来,在人工智能初期阶段,这种浮躁现象并未得到改善。“BAT 为了布局,是可以长期烧钱的,而一些公司为了跻身智能音箱领域,拿别家的技术东拼西凑,安上自己的壳子,用户体验不理想。”

从人机交互的技术角度来看,语音识别、语音合成和语音理解三要素缺一不可,“用户对智能音箱的需求不只是用来播放音乐,他可能会问天气怎么样,帮我查一个地址或订单”。那么,智能音箱语音交互的第一步骤就是识别声音源,需要麦克风阵列的支持,“亚马逊 Echo 的用户体验好,主要是在麦克风阵列的突破。”

陈博提到,国内成熟的麦克风阵列产品和提供解决方案的公司并不多,有些公司正处于技术攻关阶段。特别是传统技术的很有限,要保证识别准确率,这就意味着不能“吃老本”,必须在核心技术上进行创新。

一直以来,语言理解是语音交互始终绕不过去的话题。陈博解释说,深度学习会让机器变得越来越聪明,将大量的语料数据导入后,会针对这些数据进行学习和训练,但为什么语言理解仍然不理想,是因为文本数据在不同的场景变化太大,很难靠语料收集达到一个很好的结果,这其中包含大量的语言省略、指代和缩写的问题,“譬如我说昨天太好玩了,机器肯定不知道我所指代的事情。”

而创业公司的一大硬伤是缺乏资源,“譬如音乐的版权,播放无版权的音乐会不会被对方告。”陈博表示,亚马逊、Google、苹果做智能音箱,是因为它们有自己的生态圈,智能音箱只是其中的一个环节,恰恰智能音箱又是人机交互的一个入口,所以会有更多的互联网公司涌入这个赛道,“可能前两款产品很弱,第三款产品就完善了,这是一个长期的布局,如果创业公司也这么玩,可能能在第一款产品就死掉了”。

陈博定义的灵伴科技专注技术而不做产品,他把灵伴看作自媒体,自媒体以内容为王就可以生存下去,因此,“创业公司一定是 To B 的玩法,不是 To C 做音箱这种消费产品,在某一领域创造你的产品价值,深耕这一领域,就必然会带来现金流。”

chenbo

灵伴科技 CEO-陈博

摸着石头过河

2014 年 2 月,陈博带领团队在中关村创建了专注语音交互的灵伴科技,其中不乏清华北大的博士,核心研发团队先后在 2012 年和 2013 年 SIGNAN 中文信息处理国际评测,简体中文句法分析两项任务均获得第一名;“Blizzard Challenge”国际语音合成大赛的第一名。正是对比赛的感悟才促成他们创业的落实,“我们最初参加比赛仅仅是证明自己的技术,后来认为做研发最终还是要服务于产业,如果研发项目不能落地成为产品、成为服务,那你的研发没有任何意义”。

创业和研发无法相提并论,研发上钻研算法即可,而对创业来讲,主要依靠产品的综合能力、市场和渠道的能力。

陈博坦言,灵伴团队过去走过不少弯路。2016 年年初曾面向 C 端做了一款 App——众摇。具体说来,用户在观看电视广告时,通过启动众摇 App,摇晃手机,系统会自动识别广告声音,并向用户手机再推送一个相关广告,最后给用户一个现金红包作为回报。团队希望通过大小屏的互动增加商业价值,以此为基础实现盈利。

“众摇”可以实现 3 秒内的场景互动,陈博回忆说:“技术团队当初花了很大精力来做优化,众摇 App 推广的 3 个月后,摇动次数的最高峰值是一天 300 万次,我们平台的支撑做得都很好“。

但团队的顶层设计过于理想化。

其一,团队没有认识到电视在家庭场景中被日益淡化,传统有线电视节目正在被互联网电视盒子取代,用户更偏好于收看点播节目,而非电视直播,造成用户规模先天不足。

其二,灵伴从广告商支付的资金拿出一部分,作为红包来刺激用户使用,短期内可以支撑,长期来看,创业公司没有那么多钱可以挥霍。

其三,创企项目 PK 不过一个生态,摇一摇只是其中一环,最重要的是靠线下商家来做支撑,这需要吸纳大量的人力来发力运营,创业公司必须大量融资,向美团、大众点评一样去做地推,还要不断的烧钱,抢占市场。

最终,短暂上线 5 个月的众摇 App 被灵伴团队亲自关停,这次的大胆试错,坚定了灵伴最初的规划方向。

上线智能社会服务云平台,正确率达 95%

结合自身优势和企业定位,灵伴科技推出了国内首家“睿思 AlaaS”智能社会服务云平台,陈博习惯称之为“呼叫中心”。其通过智能融合“语音交互技术”和“云呼叫平台”打造的“虚拟劳动集市”,“雇佣”虚拟坐席机器人为客户提供在线语音交互服务。这套方案已经成功应用于保险公司、银行、电商平台证券公司等场景。

举例来说,用户购买了保险后,虚拟机器人会选择时间对其进行电话回访,向用户确认身份,询问是否投保,条款是否知晓等等。陈博向记者介绍,保险行业整体的业务量主要集中在第一季度,二三季度是淡季,淡旺季业务量的波峰波谷相差几十倍,“不可能因为业务量激增进行大规模招聘,到了淡季再进行裁员”,基于这一行业特征,灵伴顺利的与多家合作方签约,通过上线这项服务,话务员的工作压力得到明显削减。

陈博谈到,目前智能客服以文本客服为主,但并没有体现出产品价值,文本客服虽然取代传统的 FAQ(Frequently Asked Questions)页面,并且有很大的体量,但文本客服其实是被“激活”出来的,“譬如用户想要投诉,文本客服就无法解决这一问题,最后还是会打人工客服,所以我们上线呼叫中心,就是切实解决用户的问题”,这也是产品价值所在。

至于潜在的竞争对手,陈博并不过多担忧,“呼叫中心”是服务于 B 端的项目,目前 BAT 还没有涉足该领域”。他同时表示:“这是一个需要深耕的领域,每个行业的呼叫中心都要具备不同的专业知识,而这些专业知识就是这个行业的壁垒,所以我们深耕这一领域,就能实现产品价值。”

近一两年来,深度学习技术获得突破以后,行业整体的技术门槛下降,但距离成熟技术相比还有很漫长的路要走。陈博表示,“睿思 AlaaS”目前的正确率达到 90%,针对特定场景进行再优化可以实现 95%的精准度,这一数字已经处于人机交互的行业前列。

灵伴科技目前已和保险、银行、运营商等展开深度合作,短期主要以出售服务的方式为主,预计公司将在年底实现收支平衡,明年实现盈利。今年下半年,灵伴科技将发布其自主研发的麦克风阵列,产品线定位在 B 端市场,针对不同的产品规格,提供适用于智能机器人、智能音箱等产品的麦克风阵列解决方案。未来,灵伴还将在智能医疗、汽车伴驾、智能硬件等方向展开布局。

历时 3 年时间,灵伴已成长为技术成熟型公司,近 60 人的团队,技术岗占比 80%。眼下,灵伴科技将侧重于市场、产品方向,并进行相关岗位的人才招募,是公司的业务拓展和。

资金方面,陈博透露,灵伴将于下半年启动 B 轮融资,融资金额不会低于 A 轮。2014 年,灵伴获得了千万级别的天使投资,2015 年 A 轮融资近亿元,具体数字对方暂未透露。

题图来自 123RF


初创公司报道

“脉灯”创始人Marine Mallinson从外表就能一眼看出是位洋创业者,高挑的身材、深深的眉骨和眼廓以及小麦色的皮肤、金色的头发无不在勾勒出她是来自高卢雄鸡的法国人。那么这个洋老外单枪匹马组起的这支团队要在中国创造哪一番事业呢?