近两年,大量的创业公司开始涌入了人脸识别领域,其中不乏商汤、旷视、云从、依图这样的独角兽。虽是朝阳产业,但这个领域却有了红海的味道。

就在这样的背景下,声纹识别开始进入人们的视野,它不仅是朝阳产业更是蓝海市场:相对于人脸识别,声纹识别类企业要少很多。而势必可赢(SpeakIn)便是动点科技最新接触到的一家声纹识别企业。

声纹识别的差异化

据了解,声纹识别主要有两大应用功能,一是认证授权,二是安防监控。而实际上,这也是人脸、指纹识别等布局比较深的领域。那问题就来了,那声纹识别的差异化在哪里呢?

而为了解答这个问题,我们需要分别从认证授权和安防监控两个方面来说明。

首先是认证授权,这里比较典型的应用就是人脸识别解锁手机,其最核心的指标就是安全性。然而,大家都知道世上永远不可能有绝对的安全,比如,今年315时,央视就曾经曝光过人脸识别技术的一些缺陷。之后,苹果的Face ID也传被攻破了。因此,势必可赢方面提出的改进建议就是采用多重生物信息认证方案——人脸、指纹、虹膜、声纹等共同使用。

而声纹识别之所以能够位列其中甚至脱颖而出,究其原因,势必可赢认为主要在于以下三点:

  • 1、采集成本低。语音采集装置造价更低廉,只需电话/手机或麦克风即可;
  • 2、更加安全。与固定的指纹和瞳膜、指静脉相比,语音具有内容变化,可以随机改变朗读内容,所以即便在网上或其他地方留下的声音信息,也难以被复制和盗用,因此声纹识别的防攻击型更高,更加安全。
  • 3、声音数据量更大。因为对于人工智能而言,其前提就是要有足够多的数据来进行模型训练, 如果没有足够的数据,理论再先进,方法再多其实也没有什么用。

而在安防领域,业界公认人脸识别的劣势主要有两个:一是在光线、角度不好的时候, 识别效果会大受影响;二是如果有人刻意变装,戴了面具、口罩、墨镜等遮住关键部位,一些人脸识别设备等识别率也会降低甚至识别不出来。而相应的,声纹识别虽然也面临噪音环境和多人对话干扰等问题,但声音是人类最天然的交流手段,语料信息更容易被采集,更节省存储空间,更重要的是其效果不受光照、角度等因素的影响。因此,在很多情况下多种生物信息ID其实可以优势互补,合力发挥生物识别相对于数字身份识别的优势。

另一方面,势必可赢的工作人员表示,在一些特殊领域,声纹识别更是具有独一无二的优势,比如在电信诈骗这种只有声音的场景中,要判断嫌疑人,声纹就成为了最重要的线索和断案依据。

以经验、数据铸造行业壁垒

据了解,因为人的发声器官实际上存在着形状、尺寸和位置上的差异,同时,每个人的发声方式(主要是指唇、口齿、舌头等部位在发声时的相互作用)也有所不同。这些微小差异导致不同的人说话时,其声音的音质、音色也是有一定的差别。但成年后,人的声音可保持长期相对稳定不变,所以声纹和指纹、人脸一样,具有身份认证(确定某人)的作用,因此,你能够通过声音识别出电话那头的是你老妈而不是别人。

声纹识别的原理虽然简单,但想要通过机器识别它却并不容易。在计算机行业有一句名言,那就是人认为复杂的事在计算机看来很简单,但人认为简单的事,在计算机看来却可能非常难。声纹识别便是如此。势必可赢的技术人员介绍,虽然目前已经有很多开源的人工智能算法和框架降低了声纹识别的难度,但目前声纹识别最大的难点却集中在“人工智能”中的人工部分——调参以及数据上面。

  • 要解决调参难题,行业经验是关键。据介绍,势必可赢从2015年成立以来,就专注于声纹识别和身份安全,团队中已经积累了大批在声纹识别领域耕耘了十几二十年的专家型人才,在行业领域和产业研究方面颇有心得,他们知道怎么调整参数才是合理的。
  • 数据方面,势必可赢一直致力于建设大规模声纹数据库。目前已经采集了多个方言区、累积了上万人的声纹数据,数据也覆盖了多年龄层;另外,势必可赢还将联合广东省公安厅制定省级自动声纹识别系统的技术方案,建设中的数据容量将会超过千万;最后,势必可赢还研发了智能化声纹采集器和智能化声纹采集平台,符合公安机关声纹建库要求,实现一次录制覆盖90%以上主流信道。智能化声纹采集平台能自动识别不同说话人的声纹特征,在公安技侦刑侦领域有广泛的用途。

关于声纹识别的准确率,势必可赢方面举例,今年上半年某大型国有银行对声纹供应商的指标中,要求在误识率(FAR)小于千分之一的情况下,在纯数字文本输入时,准确率达到90%以上,而势必可赢的技术能够达到99%以上。

巩固2B业务,不断尝试2C应用

而在技术落地方面,势必可赢目前的重点是做好2B业务,同时也在2C上做尝试和探索。

具体而言,势必可赢目前重点应用场景有两个:

  • 一是国家安全领域,协助公安执法机关进行案件的侦破。据了解,势必可赢目前已经携手公安和电信在电信诈骗安检侦破领域展开了合作,通过声纹识别系统协助司法人员进行声音相关案件的侦破。通过“闻声识人”的声纹识别协同缩小嫌疑人范围或确定嫌疑人,可大大提高电信诈骗案件的破案效率。据了解,该应用首先将落地于广东,而且目前方案评估已经结束。
  • 二是物联网智能硬件领域,帮助智能硬件“闻声识人”,为用户提供基于身份识别的个性化服务。据了解,SpeakIn的声纹识别应用已经应用于腾讯小Q第二代机器人,同时也与某国际汽车与手机品牌合作洽谈中。

据了解,目前势必可赢拥有员工约50人,今年5月宣布完成数千万人民币A1轮融资。10月,又宣布完成了数千万元的A2轮融资。