2018 年奥斯卡最佳真人短片《沉默的孩子》中,当妈妈出门前对莉比说 “拜拜莉比,爱你”的时候,听不见的莉比只是看着电视,然而在影片结尾,当莉比隔着围栏对家教老师用手语比出“我爱你”的时候,莉比对“表达”与“被理解”的渴望直击人心。
今年的 9 月 26 日是第 64 个国际聋人节。据世界卫生组织数据显示,全球有 15 亿人患有某种程度的听力损失,人工耳蜗和助听器是他们的“义肢”,慢速播放是他们在互联网生活中的常态。好在,科技更迭,给听障人群带来了更多的可能。
打破“障碍”,让每个人能平等地探索生活和世界。这也成为包括 Google 在内,许多科技企业、社会机构关注的方向。
人工耳蜗语音增强技术研究
许多耳聋或听障人士无法轻易获得无障碍服务来辅助日常口语对话,助听器虽然有所帮助,但对于听力受损严重甚至耳聋的人士,就需要借助人工耳蜗(CI)。人工耳蜗是一种电子设备,通过外科手术放入内耳中,并通过外部声音处理器将声音信号转换为电信号,刺激耳蜗残存的听神经,从而产生听觉。CI 领域仍然面临的主要挑战是如何最好地处理声音,即如何将声音转换为电极上的脉冲使它们更易于理解。Google 对人工耳蜗进行了探索性研究,实验了一些增强 CI 用户对语音的理解的办法。
2019 年,Google 在一个小型内部项目中,邀请参与者聆听了 60 个预录制/预处理的音频样本,并请他们对舒适度进行评分。结果显示,聆听使用噪声抑制器处理过的语音,舒适度和理解度通常都会增加,证明语音增强预处理器(特别是噪声抑制器)可用于处理器的输入,增强用户在嘈杂环境中对语音的理解。
语音增强网络被训练为抑制非语音,包括音乐,所以需要采取额外措施才能保留这一重要的用户享受。为此,Google 创建了原始音频与降噪音频的“混合”,以便让足够多的音乐通过以保持可听性。在抑制非语音(例如噪声和音乐)的语音增强模块,Google 将原始音频转换成神经网络可使用的形式后,通过 AI 模型生成声音特性,并根据这些特性生成两个“掩码”,分别作用于语音和非语音,然后通过将“掩码”与特性相乘,把分离的语音和背景音重建回音频域,最后进行混合一致性处理,提高音频质量。该模型对每 2.5 毫秒的输入音频进行估算,因此可以实时使用。
Google 通过研究展示了未来功能更强大的人工耳蜗可以实现的性能,也凭借该成果,在由人工耳蜗制造商 Advanced Bionics、加州大学旧金山分校和明尼苏达大学共同举办的 2020 Cochlear Implant Hackathon 比赛中获得第二名。
为视频会议软件开发实时手语检测模型
大部分视频会议软件无法识别手语,因此当参会者需要通过手语进行交流时,他们无法被判断为发言人。Google 认为,视频会议作为人们工作生活交流的重要平台,每个人都应该能够平等地使用它们,尤其在疫情限制出行的情况下。于是,Google 开发了实时手语检测模型,通过人体姿势来判断参会者是否正在使用手语“说话”。
因为需要使用大量视频源作为输入来执行分类,所以 Google 设计了一个轻量级的模型,减小对 CPU 的消耗,以最大程度避免检测过程对通话质量的影响。当检测模型确定用户正在使用手语,它会通过虚拟音频电缆传递超声波音频,这虽然超出人类的听觉范围,但可以被视频会议软件检测到,并认为是用户正在发出声音。
Google 对该检测模型进行了用户体验调查,参与者在视频会议期间像往常一样通过手语进行交流,或是参与者之间相互“对话”,或是用手语和使用语音的用户进行交流。在这个过程中,手语被视为可听语音,成功触发了会议系统的“麦克风”图标,将参会人员的注意力吸引到手语参会者。参与者对检测模型也给出了积极的评价。
为耳聋或听障人士设计应用
除了通过相关研究寻求帮助残疾人日常沟通的方法,Google 也持续开发辅助应用不断优化产品无障碍设计,以下介绍三款专门针对耳聋或听障人士设计的应用。
Live Transcribe & Sound Notifications 是 Google 与加洛迪特大学合作开发的应用,可与 Android,Wear OS 等系统适配,支持 80 种语言或方言。“实时转录”功能利用先进的自动语音识别和声音检测技术,实时将语音转换为文字,帮助耳聋或听障人士理解对话。“重要声音通知功能” 则通过通知、闪光灯闪烁或手机振动提醒用户身边正在发生的关键声音,例如火警或门铃响起,以便用户快速响应。
Live Caption 是一个自动字幕系统,会自动为用户设备上的视频、播客、电话、视频通话、音频消息、录制的内容生成实时字幕,目前 Pixel 手机,Google Meet,Chrome 都已添加该功能。
Sound Amplifier 是一款 Android 辅助功能应用,通过过滤背景噪音而不过度增强“重要的声音”来提高清晰度。为了用户可以更加直观的了解 Sound Amplifier 是如何检测并增强声音的,该应用添加了音频可视化功能,即使用户听不出声音增强前后的区别,也可以知道声音增强的幅度。
构建一个无障碍的世界,需要全社会共同的努力。这些特殊的日子只是一种唤醒:对残疾人士的关爱不能止步于此。希望未来有更多的科技创新帮助打破“障碍”,让所有人都能相互交流和理解。