麦克风阵列是由一定数目的声学传感器(一般是麦克风)组成的,用来对声场的空间特性进行采样并处理的系统,其可以有效解决影响远场语音识别准确率的噪声、回声、混响等问题,因此,其被广泛运用于智能音箱产品中,包括亚马逊Echo、谷歌Home以及苹果HomePod都采用了该方案。

然而,用于语音远场识别,麦克风阵列方案绝对完美吗?显然不是。语智科技创始人冯一就认为麦克风阵列方案虽好,但并不适用于任何产品,麦克风阵列方案主要有以下几大弊端:

  • 1、麦克风越多,则意味着最终产品的体积将越大,麦克风阵列不适用于追求小体积的产品。
  • 2、麦克风阵列想要有好的识别效果,麦克风只能像智能音箱中的那样水平、圆形排列,对于像智能镜子这样的垂直产品,其并不适用。
  • 3、对于市场上更多的存量产品而言,他们最初并没有安装麦克风阵列,可能只有1-2个麦克风,他们难道就不能拥有远场语音识别能力了?
  • 4、更重要的是,麦克风越多则意味着成本越高。

为此,语智科技研发了一套全新的语音识别引擎(FFASR),可以使用任意数目(甚至可以只需要1个)以及任意排列的麦克风采集并进行远场语音识别,从而避免上述麦克风阵列方案的弊端。

冯一介绍,麦克风阵列方案之所以成本高、体积大,一个是因为麦克风本身的成本和体积,而另一个原因则在于麦克风阵列方案需要对采集到的声音做一定的前端处理,具体包括单路信号的降噪以及将多路信号合成为一路等,然后才将信号传到云端做进一步的处理(包括语音识别、语意理解等),这就意味着每一个麦克风都需要配置一个处理芯片。

既然音频数据最终都需要上传到云端进行处理,冯一由此认为做前端处理的必要性就不大了。因此,语智科技的解决方案是直接将麦克风采集到的信号上传至云端,并在云端做降噪、回音消除等处理。

具体来说,麦克风阵列采用了硬件级的方案,根据不同麦克风所采集数据的差异,解决了噪声、回声、混响等影响远场识别效果的问题,而语智科技则另辟蹊径,采用软件算法的方案解决这些问题,即首先对噪声、回声、混响等进行精确的数学建模,并据此将噪音等从原音频信号中剔除,从而得到较为干净的声音。

而这里的难点则在于对处理声学降噪等的神经网络提出了更高的设计要求。据了解,语智科技为此特意将 CNN(卷积神经 络)、RNN(循环神经 络)、DNN(深度神 经 络)进行了深度整合,搭建起了一个更复杂的深度学习网络,并将网络分成很多部分, 以处理不同的任务。 这样的神经网络还需要更适配和先进的训练平台,语智科技因此又设计了新的训练平台,替代通常使用的 Kaldi ASR 训练平台。

而在最终的效果方面,冯一介绍,他们的纯软件方案在识别率上虽然比不上多麦克风阵列方案,但相较于传统单麦克风方案,语智科技加持下的单麦克风方案的识别率却能够提高15%以上,“从产品落地角度来看,这基本上就是可用与不可用的差别。”冯一认为这将使各类 IoT 设备摆脱目前实现远场语音识别必须要用复杂麦克风阵列的局限, 可大幅度缩减成本,推进语音交互进驻各领域的进程。

当然,语智科技的识别引擎与麦克风阵列也并不是非此即彼的竞争关系,“二者可以结合起来用,达到1+1>2的效果。”冯一如此介绍。

下游厂商需求旺盛,给FFASR技术带来更多信心

据了解,语智科技的远场语音识别引擎FFASR开发者平台已经于17年12月底正式上线了,其可以让手机厂商、IoT设备厂商、Geeks以及任何想拥有远场语音交互能力又不想或不能使用麦克风阵列的人零成本地拥有远场语音识别能力。

语智科技方面表示他们并没有为开发者平台的上线召开发布会,仅仅只是在自己公众号上宣布了这件事,然而,仅仅是这样的渠道,语智科技已经获得了下游厂商非常积极的反馈,在FFASR远场语音识别开发者平台上线后的一周,已经有近10家厂商和开发者申请接入该平台。

冯一坦言,一家做智能魔镜的公司曾告诉语智,他们很早以前就想让镜子拥有语音交互的能力,这样才符合「魔镜」在人们心目中的样子,但是当时的远场语音识别引擎对单麦克风信号的处理结果非常差,用户体验很不好,厂商甚至不愿意再宣传自己的魔镜拥有语音能力。而在镜子这种产品中增加麦克风阵列也不现实, 因此让「魔镜」成为真正「魔镜」的进度一拖再拖,一直未能找到合适的技术方案。FFASR的出现,让这家智能魔镜厂商在不更改硬件电路和工业设计的情形下,快速获得语音交互能力,领先该领域半代甚至一代的产品进度。

这一点让冯一和他的团队感到非常振奋,而且这个远场语音识别的性能仅仅是团队的小试牛刀。

最后值得一提的是,冯一是一位1991年出生的90后创业者,毕业于北京大学计算机系,创业之前,曾是Google Now的核心成员,主导了多回合对话系统的研发工作。因为在谷歌的工作使他意识到了语音助手的广阔前景,于是便在2016年初开始创业,并成立了语智科技,而半年后,其创业项目也从最初的语音助手转向了远场语音识别。“因为我们在做语音助手的过程中发现当时的远场语音识别技术都做得不令人满意,不是效果不好,就是价格太贵。”冯一如此表示。

据了解,目前语智科技具有员工约30人,2017年底宣布完成 Pre-A 轮 2000 万元融资,由晨兴资本、云启资本领投,九合创投跟投。

题图来自123rf