Google

据 Ars Technica 报道,谷歌研究人员开发出一种深度学习系统,旨在帮助计算机更好地识别和分离出嘈杂环境中的个体声音。

正如谷歌本周在 Google Research Blog 上所称,该公司内部团队正试图复制 “人类大脑专注于某个声音来源时,可过滤掉其他声音” 的功能。谷歌发布了 YouTube 视频,展示了该技术的实际应用情况。

谷歌表示,这项技术可以应用于使用单一音轨的视频,并能在视频算法中隔离声音。谷歌称,这里的视觉组件是关键,因为当某人的嘴在动时,这项技术会观察到,以便能在特定时刻更好地识别在某人的声音,并为视频的长度创建更精确的个人语音轨迹。

这篇博客文章写道,研究人员在 YouTube 上收集了 10 万段 “讲座和谈话” 视频,从这些视频中提取了近 2000 小时的视频片段,并将音频与人工背景噪声混合。然后谷歌通过阅读人们在每个视频框架中说话的脸部动作和该视频原声带的谱图,训练技术人员将混合音频进行拆分。该系统能够分辨出哪个音频源在给定的时间内属于哪张人脸,并为每个扬声器创建单独的语音轨迹。

谷歌特别指出,封闭字幕系统是该系统的一个优势,该公司表示已经在考虑 “这一技术的广泛应用”,并且 “目前正在探索将其纳入各种谷歌产品的机会”。