MIT新的科技突破：用AI过滤声音，让音乐听起来更洪亮或更柔和

据报道，麻省理工学院又出科技新突破，其计算机科学和人工智能实验室的研究人员所研发的新系统 PixelPlayer，能够利用人工智能来区分和过滤声音，让音乐听起来更洪亮或更柔和。

据悉，将指定视频录入经过充分训练的 PixelPlayer，系统随机能够过滤伴奏，同时识别音源，接着计算图像中每个像素的音量，然后通过“空间定位”确定产生相似音波的片段。

PixelPlayer 的核心是一种基于乐器组合多模态训练的神经网络，数据集采用了 Youtube 上 714 条未经修剪且未经标记的视频。其中，总时长为 60 小时的 500 条视频用于训练，剩余的则用于验证和测试。在训练过程中，研究人员分别根据原声吉他、大提琴、单簧管、长笛和其他乐器向系统馈入了算法。

这只是 PixelPlayer 多重机器学习框架的一个部分。经过训练后的视频分析算法将从剪辑帧中提取出视觉特征，这就是系统的第二个神经网络，即音频分析网络。音频分析网络将声音拆分为片段，并从中提取特征。最后，音频合成网络将把上述两个网络输出的特定像素和声波关联起来。

PixelPlayer 进行完全自监督的学习，人们无需对数据注释，而且系统目前已经能识别 20 种乐器。

图片来源：123RF

MIT新的科技突破：用AI过滤声音，让音乐听起来更洪亮或更柔和

你可能会喜欢

上海太热了，我们帮你去 WAIC 现场拍了拍哪些“好玩的”｜WAIC 2026

带你看看 WAIC 现场的机器人们｜WAIC 2026

Netflix：今年已在约 300 部影片中使用了生成式 AI 技术

苹果也坐不住了，据称其正全球物色 AI 芯片公司