fcd4e64ff13b4af0ab02597cd1d9c8ce_th

编者按:最近,大大小小的厂商都加入了智能音箱战局。那么,智能音箱是不是一门好生意,这会成为硝烟弥漫的战场还是歌舞升平的乌托邦?为此,动点科技近期推出了专题【智能音箱的理想国】,我们将从硬件、评测、市场、投资人和它背后的人工智能、语音识别等方面进一步呈现它。作为此次专题系列文章之六,本文将从语音识别、语义识别等技术的角度带大家和一起解读智能音箱。

Amazon Echo销售的火爆带动了一大批企业进驻智能音箱领域,包括苹果谷歌、以及国内的阿里小米等在内的巨头都希望在这个市场中分得一杯羹。

然而,智能音箱的关键技术点是否已经成熟?我们分开来看看:

远场语音拾取

由于智能音箱离用户比较远,加上真实环境中存在大量的噪声、多径反射和混响,所以,与手机等近场应用相比,相同配置下智能音箱拾取声音信号的质量会差很多,这会严重影响后续的语音识别率。因此,远场语音拾取是智能音箱必须拥有的基础能力。而目前,麦克风阵列是解决这个问题的主流方案。

麦克风阵列指应用于语音处理的按一定规则排列的多个麦克风录音系统,具体又分为2麦克风阵列和多麦克风阵列。

理论上来说,麦克风越多识别效果会越好。比如,Amazon Echo便采用6+1 麦克风阵列,支持360°声源定位。而Google Home采用2麦克风阵列只能支持180°声源定位,定位角度的区分度也弱一些。

不过,云知声 IoT 副总裁陈吉胜表示,当前那些认为麦克风越多越好的看法是有待商榷的,因为麦克风越多,量产的难度也就越大,而且后续出故障的概率也越大。陈吉胜就比较推崇Google的2麦克风阵列设计,“这个方案最大的好处是结构简单,实施落地方便。”当然,2麦克风阵列由于结构简单,要想达到相同的效果,对算法的要求自然要更高。

目前,智能音箱仍旧是多麦克风阵列为主,而这就意味着,在远场识别方面我们还有很多工作要做。

语音唤醒

智能音箱一旦开机,麦克风阵列其实始终都处于拾音状态,但就像人与人之间的交流很多时候都需要叫对方名字一样,智能音箱要想知道何时工作,也必须先听见主人叫它的名字——即语言唤醒,比如苹果的“Hey Siri”、Google的“OK google”以及亚马逊echo的“Alexa”等。而语音唤醒的目的是提示机器重点注意并识别后面所要说的话。

据了解,一般的语言识别,不论是远场还是近场,基本都是在云端的,这样可以使用大模型,服务器的高速计算等优势获得好的识别结果。然而语音唤醒基本是在本地设备上,因此它的要求更高,技术难点则具体体现在以下几个方面:

a)功耗要低。由于语音唤醒意味着需要后台持续运行算法,耗电是持续的。比如在iPhone 6s之前,只有在接入电源的情况下才可以通过直接喊“Hey Siri”进行语音唤醒,而iPhone 6s之所以能做到,也要归功于它集成了一颗专门进行语音激活的低功耗芯片。

b)计算量要小。计算量小一方面是低功耗的要求,另一方面要是实时率的要求。系统的反应速度应该越快越好,最好是用户话音刚落,设备就应答了,这给用户的感受,才像是有个随叫随到的助手。

c)唤醒效果。理想状况下的效果是随叫随到,不要漏报也不误报,即它不能在你叫它的时候不回应,也不会在你没叫它的时候莫名其妙地启动。而漏报与误报往往又是此消彼长的关系:唤醒词越长,误报肯定小,但同时漏报也就多了。

另外,人们对智能音箱的最终期望其实是不要有唤醒词。目前的音箱,所有的交互都是一唤醒再一问一答,每次使用前,需要先喊一声音箱的名字,然后再下达指令。这种交互最大的问题就是——让人感到生分、不爽。而这就意味着对算法的要求更高了。

语音识别

语音识别技术就是让机器通过识别和理解的过程把语音信号转变为相应的文本或命令的技术。语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。一个连续语音识别系统大致可分为四个部分:特征提取、声学模型训练、语言模型训练和解码器。

当前,近场语音识别的准确率已经足够高了,微软神经网络LACEA在switchboard数据集上已经把词错误率降到了5.8%,比人类标注还要好。然而,在远场识别方面,准确率还是有待提升的,其中重要一个原因就在于远场环境下杂音太多,即使有麦克风阵列的助攻,效果也往往差强人意。

另外,目前语音识别主要在标准普通话方面识别得更好,虽然也有几家语音公司推出了粤语、四川话等识别,但由于语料库的相对缺乏,这仅仅只是少数几家公司能做的事,而且准确率无法跟普通话相比。

需要补充的是,在中英文混杂、专业名词混杂等情况下,目前的语音识别效果均有待提升。不过,问题的关键还是在于如何获取足够多的数据,有了数据,通过大数据训练这些问题理论上并不是什么大问题。

语义理解

通过语音识别将声音转换成文字之后,便要理解这些文字的含义,让机器能够准确理解用户的意图,即自然语言理解,这是智能音箱乃至人工智能最核心也是最迫切需要解决的问题。

一般而言,语义理解中至关重要的便是分词,即将一段文字按照主谓宾等形式区分开来,以便后续的理解。比如,将“结婚的和尚未结婚的”分词为“结婚/的/和/尚未/结婚/的”。

看似简单,但要让机器做到这一点可不简单,比如机器可能会将上面那段话分词为:“结婚/的/和尚/未/结婚/的”。如何让机器判断两种分词哪种正确?

另外,由于一个词的含义众多,不同人说同一句话,以及同一个人在不同场合说同一句话,意思都不一样,比如:

A:你这是什么意思?

B:没什么意思,就是意思意思。

A:你这样就没有意思啦。

B:哪里哪里,这只是一点小意思。

A:呵呵,你这个人真有意思。

如何让机器正确理解这里的“意思”到底是什么意思?

总的来说,在常见问题应答方面,据有关调查数据显示,Google Home的应答率和准确率都最高,可应答率68.1%,准确率90.6%,其次是微软的Cortnana,这两个公司的成功关键就在于Google以及Bing在搜索引擎上积累的大量数据。相比之下,苹果Siri、亚马逊Alexa与前两者还是有一定差距的,亚马逊Alexa的准确率实际上是紧追Google的,为87%,但它能回答的问题十分有限,仅20.7%的应答率。

最后,有了这些技术,想要做出一个好的智能音箱还有两方面需要注意,一是硬件,这对中国创业者或许并不难,但对供应链的把控至关重要,之前很多智能硬件都掉到这个坑里了;另一个就是内容,据称小米音响早在5月份便已经研发完成,直到最近才发布,也是因为内容的缘故。再则,如今搜狗、喜马拉雅等内容平台均有做智能音箱,所以留给创业公司的机会不多了。