云知声陈吉胜:语音识别不能产品化,技术再厉害也白搭

chenjisheng

万物互联时代,人与机器的交互方式已经不再是鼠标键盘所能胜任得了的。而语音作为最自然的交互工具,目前被广泛认定为智能家居乃至物联网的入口。既然是入口,觊觎者自然也少不到哪里去,与国际上知名的谷歌、苹果、亚马逊,以及国内的百度、搜狗、科大讯飞等企业相比, 云知声 这家语音识别企业的量级显然并不大。

面对这群雄争霸的局面,云知声 IoT 副总裁陈吉胜在 CES Asia 2017 展会的现场告诉动点科技,云知声的优势在于技术、产品设计、产品落地的三位一体。而其中,将技术落地到用户愿意购买的产品是关键。

在加入云知声之前,陈吉胜与云知声创始人黄伟都是摩托罗拉的老同事,当时便已经开始研究语音识别、语音合成以及图像识别等新型人机自然交互方案,黄伟当时负责算法的研发,而陈吉胜负责算法的工程落地。之后陈吉胜又到了埃森哲任通信及高科技事业部经理,为国内华为等电信厂商提供图像处理方面的一些解决方案。再之后他还去了像索尼爱立信这样的手机公司。直到 2015 年 6 月陈吉胜加入云知声,负责云知声的技术落地与产品化。

好算法并不是会看论文就能得到的

人工智能大火,相关创业企业也越来越多,而这些企业所采用的技术在本质上基本都是深度学习。然而,有人却认为人工智能时代算法并不重要,因为业界一旦有好的算法出现,很快就能出现在学术界的论文里,企业只要会看这些大多来自国外的论文,便能得到这些最先进的算法。

对此,陈吉胜认为这个说法有待商榷。“会看论文并将它实现只是最基本的要求,这是在 PC 上实现的,但在 PC 上能实现与在设备上实现却是两个不同的概念,比如在手机上也能实现 PC 上的算法,但功耗呢?因为手机不像 PC 是连接电源的,所以算法要做进一步的优化,这只是一个简单的例子,主要是想说明,看懂论文、输出算法只是入门,离真正做出消费者愿意购买的产品,这只是万里长城第一步,人才并不那么好找。”

“其实算法上的核心壁垒还是挺高的。”陈吉胜表示,在算法方面云知声 CTO 梁家恩专门带领着一个博士硕士比例“相当高”的算法团队专门负责,“这是我们的核心竞争力之一。”

算法只是一方面,产品如何落地更关键

“不过,光有技术也是不行的,你还要将技术做成可落地可商业化的产品。这一块需要有丰富的工程经验,因此我们还组建了一个研发团队和一个实施落地的团队。”陈吉胜表示他们最擅长的便是后两者,即产品研发和落地。“虽然后面两个团队工程师相对于核心算法团队更好找,但想要将产品做得非常好,其实门槛也非常高。你需要找到既要懂工程又要懂算法还要懂产品的人才。这便是我们的另一个核心竞争力。”

“我们看见有很多公司,他虽然有很好的技术,但却一直没有办法实用化和产品化。”陈吉胜认为其主要问题就出在缺乏好的产品研发和落地实施团队上。

为了说明这一点,陈吉胜还举例认为如今在语音识别领域,备受追捧的多麦克风阵列方案其实就没有考虑好技术如何落地。“现在都在说多麦克风阵列效果好,而且是麦克风越多效果越好,在理论上这的确是对的。但是难道就不能换个思路,以更少的麦克风实现多麦克风的效果?多一个麦克就意味着多一些成本,而且多麦克与少麦克在使用一段时间后哪个会更容易出问题呢?显然是多麦克风方案,这是个概率问题,且意味着更高的维修成本。”

陈吉胜还表示,云知声在美的、格力的智能家居方案中就为了便于制造落地采用了最简单的两麦克风方案,“难道是说我们做不了 4 个、6+1 个甚至更多的麦克吗?试想在设备上打两个洞与打 4 个甚至更多个洞,哪个更简单?而且要使两个洞都保持在一个轴心上,是完全不用操心的——两点确定一条直线。”

不仅如此,陈吉胜还认为开发出一个好的算法只是万里长城的第一步,而后面技术落地方面还有千万步要走。具体而言,陈吉胜认为技术落地至少还有以下这些坑需要注意:

  • 1、交互设计。“就拿语音识别举例,企业说自己产品的识别率可达 95%,但用户是不会知道这个数字的,他只会在使用过程中不断感知到产品的识别到底好不好,而感知就是交互设计,这第一件事情就能难,怎么让用户愿意来使用这个产品。比如人跟一个智能音响的交流,就必须要非常符合人的使用习惯。而一个产品要做到符合人的使用习惯,这对设计的要求就非常之高。绝大部分产品都不符合人的使用习惯,否者也就不会只有一家苹果了。”
  • 2、要将产品做稳定。 从一个 demo 到用户可以长时间使用而不出问题的产品,这是非常关键也是比较难的。
  • 3、降低成本 。你要将成本不断地往下降,而且性能还不能有什么损失,这也非常考验工程团队。

“这些步骤听起来很枯燥,大家认为其理所当然要做好,但要将其变为现实,这些步骤你就必须要一步步地走过去。”陈吉胜如此表示。

算法、设计、工程的三位一体化

此外,陈吉胜认为在人工智能或者说是语音识别领域,各大公司按技术先进与否其实可以分成几个档次,一些公司可能会在稍微高一点的档次上面,而另一些公司则处于相对低一点的档次上。“目前人工智能领域主要运用的深度学习就像是一种兵法,大家得到的兵法都一样, 但更关键的其实在于如何运用这些兵法。”

“做得好就能更快落地,更快落地就能得到这个场景下更有价值的数据,而更好的数据又能使产品更加地完善。这是一个正向循环的过程。”陈吉胜表示云知声便做到了 算法、产品设计、工程落地 的三位一体化:

对于甲方客户而言,他们开始可能会有多种方案进行尝试,但在最后,他们会寻找一个最可行的方案。陈吉胜认为云知声很有机会最后中选这个合作方的。“我们信心的最终来源就在于算法技术、工程能力、设计能力的三位一体化,这是根本原因。而表现上则可能是我们得到了很多大客户认可,并经历了非常严密的测试。”据了解,云知声目前的合作伙伴已超过 2 万家,覆盖车载、家居、医疗等领域。

另外,巧妇难为无米之炊,在人工智能领域,数据一直都是至关重要的。像苹果 Siri、搜狗输入法等等依靠硬件或软件的巨大市场占有率,似乎在数据收集方面有着先天的优势。对此,陈吉胜强调,“在很多实际公开场合下,其实并没有太多人愿意用语音。而我们的语音数据更多来源于特定场景,比如车里和家居里面等私密环境,用户愿意放开嗓子说,而且很多时候不用反而还不方便。所以我们得到的是一些在垂直领域内非常有价值的数据。”陈吉胜说到。

值得一提的是,面对搜狗、科大讯飞、苹果、谷歌等竞争对手,陈吉胜认为分级并不意味着第一档以外的企业就完全没有机会了,“如果你认为只有最好的技术才有人买,那不就意味着这些方案的价格要高到天上去了吗?市面上有吃十块钱鸡腿的,也有吃 5 块钱鸡腿的。”陈吉胜表示。

打造“云端芯”生态闭环

据了解,为了加速语音识别技术的落地,云知声打造了一个“云端芯”的一体化的解决方案,主要包括 AI 芯、AIUI、AI Service。

“AI 芯是一种专门的芯片,用来跑离线的智能。而芯片最终还是要运用到终端设备上的,因此需要与人有一定的交互,这就是说需要 AIUI ,而交互有时候也是需要有云端支持的,这就是 AI Service。”陈吉胜表示,“芯片有非常多种,CPU 用来做通用处理,GPU 用来做图像方面的专用处理,而我们的芯片就用来做声音方面的专用处理。”

另外,陈吉胜表示做芯片是一件高风险的事,而之所以一定要做 AI 芯片,其实也是为了技术能以更低的成本更快地落地。“并不是说通用芯片不够用,而是说通用芯片不合适。通用芯片的计算能力对于语音处理而言已经足够用了,但犯不着。比如,你花大价钱买了一个大房子,却只是用来晚上睡觉,太浪费了。”

云知声的 AI 芯片(UniOne)目前还在研发中,将内置 DNN 处理单元,兼容多麦克风、多操作系统。未来,AI 芯将以模组的形式提供给客户,客户有了模组就意味着有了一整套云端芯的服务。

值得一提的是,就在不久前,云知声又发布了一款名叫 Pandora 的语音中控方案,将远场语音识别、语义理解等复杂的 AI 技术元素整合为一个整体方案。基于“Pandora”方案打造一款专属语音中控产品的研发周期可以控制在 6 个月,大大降低了产品化难度与风险。

据了解,云知声成立于 2012 年 6 月 29 日,总部位于北京,在上海、深圳设有分公司,目前员工超过 200 人。其最新透露的融资消息是 2015 年底已经完成数千万美金的 B+轮融资。


初创公司报道

非码是一家互联网门店整体解决方案服务商。Deric希望能够通过云服务和移动互联网,为门店提供基于收银、码券、外卖、顾客管理等相关业务的互联网门店整体解决方案和运营支撑服务。