sibichi

当下,人工智能被很多人认为是物联网的入口,市场预测其未来发展的体量将不可想象。目前在国内除了像思必驰这样早期的语音技术提供商,如百度、阿里、爱奇艺,360、乐视等这样的大企业也都纷纷在搭建自己的语音技术平台。

思必驰于 2007 年在英国剑桥的高新区创立,早期曾提供语音口语教育服务。2014 年年底,它开始转型,将其口语教育业务剥离出去并被网龙全资收购。思必驰市场总监龙梦竹介绍说,当前思必驰主要深耕垂直在语音交互的车载、家居、机器人三大领域,给用户提供车载端的人机对话操作系统 AIOS、智能语音芯片模组 AICHIP 和环形 6+1 远扬麦克风阵列。并且在该三大领域中分别与高德、海尔、乐橙等诸多企业有合作,龙梦竹还强调,在近几年也只专于做 B 端市场。

sibichi

众所周知,像在国内语音领域比较知名的科大讯飞除了 B 端也面向提供 C 端产品,比如叮咚和录音宝。为何思必驰要缩小自己的市场领域呢?龙梦竹有着自己的看法,她认为做 C 端会隔绝自己的用户群体,思必驰不像讯飞有那么大的体量品牌吸引力,在产品价格市场上不一定有用户粘合度。比如讯飞做的叮咚是 8 麦阵列,但给用户提供的一般都是 5 麦阵列。因为一个 8 麦阵列的价格就在四五百左右,加上音响,那基本都是上千,很难让用户为这样一个小音箱买单。

在人工智能语音体系上针对车载、家居、机器人三大板块最主要的就是识别、理解和交互,而识别技术则是整个语音底层的基础。首先要在有识别量的基础上,才可能去做语音合成、语义理解和多伦交互。这就需要大量的数据积累,相对于国内的 BAT 企业,这显然成了创业公司的短板。

龙梦竹告诉动点科技,语音的场景化十分重要,这个场景主要分为通用场景和垂直场景,百度最厉害的是通用化搜索,淘宝最强的就是电商场景搜索。我们做的是纵深垂直,比如在车载领域就只针对导航、音乐等几个单项数据的积累。而且在人工智能领域,两万数据和三万数据对用户差别不大,量在饱和程度没有任何优势可比的时候就只能比算法。据了解,思必驰在去年就实现了语音同步到文字的实时连续输出并可根据上下文纠错技术,而在国内输入法的老大搜狗则是在今年六月份才实现该技术的突破。

当然,语音交互受外在环境影响也是特别明显的,比如噪声和距离。由于汽车环境相对闭塞,受距离影响较小,思必驰提供了车载端的人机对话操作系统 AIOS 采用降噪和回音消除技术。比如,你在放歌的时候,如果不喜欢要换音乐。本来它在放音乐时候就自行发出声音,同时还要能识别你的指令声音和周围的噪音,这个技术叫回音消除。在此基础上,该系统可实现及时打断和纠错,官方表示交互正确识别率在 95% 以内。龙梦竹也补充道,目前车载语音的难点在于快速唤醒功能,但每次体验唤醒功能却显得不是那么便利,由于驾车安全第一,任何其他操作都是辅助手段,因此在安全的前提下,未来也将对车载唤醒这块做出人性化调整。

sibichi

此外,思必驰针对智能家居和机器人领域推出了环形 6+1 远场麦克风阵列产品,该产品阵列周围 6 个麦克风呈环形 360°排列,中间置 1 个麦克风辅助拾音,能够有效地在家居环境下进行抗噪处理及语音识别,。对方表示其远场 5 米交互识别率达 92% 以上,并且能对声源进行定位,精准度控制在±10°以内。

目前在国内外语音技术的应用上,大体分为三类:以微软小娜为代表的问答式对话、以苹果 Siri 为代表的闲聊式对话和以亚马逊的 echo 为代表的任务型对话。对此龙梦竹告诉动点科技,问答式对话的答案是非常明确的;闲聊式对话,没有本体和核心,适用情感交互;而任务型对话是刚需,解决用户问题的。思必驰走的是任务型应用技术路线,当然在逐步的深入中也会加入闲聊跟问答式的功能趣味。

从整体市场来看,未来语音交互将会由单模态交互向多模态交互的发展,真正实现人体感官的聚合。当然目前语音实现的都是被动式交互,龙梦竹表示未来思必驰将会朝着让机器自适应方向发展,做主动的加法交互。比如,现在是人自己每天定时起来跟机器人打招呼,未来机器人也能适应人的习惯,在固定的时间跟人打招呼,这应该才是用户的终极需求。

在融资方面,今年初思必驰已获得 2 亿元投资,不过对方并未透露过多细节。