12 月 14 日,搜狗推出了一种人机交互新技术——“唇语识别”。据介绍,唇语识别是一项集机器视觉与自然语言处理于一体的技术,可以直接从有人讲话的视频中,通过识别说话人唇部动作,来解读说话者所说的内容。

sougou

搜狗官方表示,通过复杂端到端深度神经网络技术进行中文唇语序列建模,经过数千小时的真实唇语数据训练,搜狗 “唇语识别” 系统在非特定人开放口语测试集上,该系统达到 60% 以上的准确率,在垂直场景命令集如车载、智能家居等场景下甚至已经达到 90% 的准确率。

sogou1

关于唇语识别技术的作用,搜狗方面表示古代僧侣和神父通过唇语读懂信徒心里所想以显示神奇。而在 2003 年的伦敦劫钞案中警察就是在唇语识别专家的帮助下破的案。未来,唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下,周围噪音过大时会对语音指令产生干扰,在安防领域,由于目前多数监控只有摄像头没有麦克风,而唇语识别则可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。另外,唇语识别还有机会帮助先天性听障人群或老年人,帮助他们更好地与人交流。

据了解,这并非业界首个唇语识别技术,早在 2003 年,英特尔便开发了 “视听说识别系统” 软件,供开发者研制能读懂 “唇语” 的计算机;2016 年,谷歌 DeepMind 音文唇语识别系统便已经可以支持 17500 个词,新闻测试集识别准确率达 50% 以上。

题图来自 123rf