sougou chengwei

在语音交互这条路上,很多厂商吃了不少苦头,尤其在涉及一些专业术语的时候,语音识别的效果往往让人不敢恭维。同样,搜狗语音也经历了类似的苦恼。近日,搜狗语音交互中心总监陈伟在中信双创沙龙的活动上便分享了搜狗在语音识别与交互上趟过的坑与得到的经验。此外,本次沙龙活动还请来了人工智能领域其他从业者,银弗科技联合COO朱梓鸣、健康诺数据总监董云帆、ARK董事长张文新等。

sougou chengwei2

据了解,正是基于语音输入对未来人机交互至关重要的作用,搜狗于2011年开始组建语音团队,并在搜狗输入法上使用语音识别功能,而且在搜狗输入法上率先上线了谷歌语音识别API。陈伟介绍称,最初搜狗语音识别能力和谷歌当时API能力基本字错误率维持在40%左右,不过近年来有了突飞猛进的发展。“这几年(错误率)从40%、30%降到了5%左右,而现在错误率基本是3%。同时伴随语音量的增长,目前每天有2亿次识别请求,对应语音时长超过18万小时。”陈伟表示。

数据、算法、计算能力三管齐下

众所周知,大数据的兴起、深度学习算法的普及、计算能力的提升是近年来人工智能迅速发展的三大技术前提。同样,搜狗也从这三方面出发,不断推进其人工智能技术的进步。陈伟表示,当他们的产品上线后,新老用户产生了大量数据,从最早的500小时变成了数万小时。而在算法上,搜狗也紧追行业最新成果,在2010年,通过深度学习技术,错误率直接下降了30%;此后其又先后通过引入CNN卷积神经网络以及时序概念;并将深度学习“深度”继续加升,“在我们语音这边做到30层到50层(神经 )是非常常见的现象”;同时,在运算能力建设方面,搜狗也逐渐从CPU转换到了单片GPU再到多机多卡(CPU、GPU等),运算能力从之前的几T变成了上P。

区分应用场景,破除通用语音助手的识别盲区

目前,搜狗围绕语言提出了搜狗人工智能战略,主要分为两个部分:自然交互和知识计算,其中陈伟团队的工作重心则主要放在自然交互上。

提到自然交互,就不得不提及登陆苹果的Siri。多年以前,创业者们纷纷跟风,做出了很多类似的助手类产品,但这些产品在火了一段时间之后,最后基本上都逐渐消失了。搜狗同样也是其中一个跟随者,“我们当时做得是比较不错的,比如有调戏的功能,另外可以满足用户查询类的需求等。”陈伟认为包括搜狗等企业当时犯的错误主要就是未能及时认识到产品边界,过早地做了通用型的语音识别。

“然而,目前的技术能力还远远达不到通用的能力。比如说语音,当我们在做语音识别的时候,就会面临通用或者口语类的语音识别。比如,识别科技类或者体育类的专有名词时,准确率就会下降。语义理解也一样,依然有我们无法覆盖到的。”陈伟如此解释。因此,搜狗的解决之道便自然而然地落在了“产品边界需要做一些区分”上面。

sougou2

正是在这样的思路下,搜狗去年推出了自己基于语音交互的搜狗知音引擎,并重点关注垂直细分场景,“一个是在车内,解放人的双手和眼睛,比如可以通过语音控制听歌、导航等操作;另外就是客厅,出现电视这种场景,人和机器之间已经有了一定距离,这时候语音成为重要的交互方式;最后就是户外,解决边走路边打字的问题。”陈伟认为关注于垂直场景后,企业就可以将精力集中在可控范围内,从而提升产品性能。

以下技术,使自然语音交互更有效

陈伟认为,想要做好语音交互,第一就是要具有多轮对话能力,人和机器目前交流的内容依赖于我们之前交流的历史信息来共同决定机器目前给出的反馈;第二是当语音识别错了要有纠错能力;第三就是内容理解,就是人和人之间交流的过程中往往会有多处出现打断的情况,或者出现两个人共同说话的情况,那么怎么解决这种真实的对话的场景呢?

据陈伟介绍,把引擎下垂到具体场景,其实就是为了做到多轮对话。而搜狗累积的大量包括命令操作、生活消息、娱乐消费、知识问答等数据,更是有利于搜狗建立完善的知识图谱,解决内容理解问题。

不过,仅仅这些技术还是不够的,“在家庭、车载等场景下交互,会出现多种噪声,比如在开车时面临的风噪,在大的房间里面有回声、回响,在这些条件下,语音识别基本上不可用。”为此,在语音输入前要做降噪和增强处理,“这里的重点就在于,软件解决不了的问题需要硬件的方式来解决。”

sougou3

具体而言,搜狗推荐采用多麦克风阵列方案。“我们之前更多地在手机上使用单麦克风的方案,单路麦克风引入的噪声是很难分离的,而多麦克风阵列方案则可以很好地降低噪声,比如车载麦克风只对司机方向录音,在电视场景中,当在客厅里面有一个人说话的时候可以定位你在哪个位置,从而规避掉角度之外的声音,提升说话人语音识别的效果。”陈伟如此表示。

另外,陈伟认为在相对不那么复杂的情况下语音识别可以做到97%的准确率,但是离百分之百存在一定的鸿沟和差距。因此,“当出现错误后怎么通过产品的方式去弥补,这是我们目前搜狗的重要关注点之一。这就意味着语音纠错功能必不可少,比如人和人之间沟通的时候,在介绍说我叫章砚,会具体的说一下,立早章,砚台的砚。”陈伟介绍,“当有了这样语音纠错能力后,用户在出错后可以通过语音的方式进行纠正。我们在上线的时候修改成功率只能到40%,但是随着产品不断迭代目前可以达到80%的修改成功率。”

最后,陈伟总结认为,产品跟技术相辅相成,因为技术永远有缺陷,当技术上出现了问题时,通过产品设计的方式去纠正和避开,也很关键。