阿里公布新语音技术合成语音与真人发声的相似度达97%以上

7月10日，阿里巴巴发布新一代语音合成技术KAN-TTS，称可大幅提高合成语音与真人发声的相似度，并将语音合成定制成本降低10倍以上。该技术由达摩院机器智能实验室自主研发。阿里方面称，当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间，而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

据悉，KAN-TTS由达摩院机器智能实验室自主研发，深度融合了目前主流的端到端TTS技术和传统TTS技术，从多个方面改进了语音合成。传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。从启动定制到最终交付，项目周期长成本高。

阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法，将语音合成定制成本降低10倍以上，周期压缩3倍以上。也就是说，用1小时有效录音数据和不到两个月制作周期，就能完成一次标准TTS定制。

此外，这使得普通用户定制“AI声音”的门槛更低。只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。

阿里公布新语音技术，合成语音与真人发声的相似度达97%以上

你可能会喜欢

上海太热了，我们帮你去 WAIC 现场拍了拍哪些“好玩的”｜WAIC 2026

带你看看 WAIC 现场的机器人们｜WAIC 2026

Netflix：今年已在约 300 部影片中使用了生成式 AI 技术

苹果也坐不住了，据称其正全球物色 AI 芯片公司