新浪科技报道,搜狗公司 CEO 王小川、新华社副社长刘思扬、搜狗公司智能语音事业部总经理王砚峰和主持人邱浩在第五届世界互联网大会上联合发布 AI 合成主播。

AI 合成主播由“搜狗分身”技术打造,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项技术,把更接近人类的形象呈现出来。结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的 AI 分身模型。

这项技术可以让机器模拟出逼真的人类声音、嘴唇动作和表情,并将三者自然匹配。

用户需要做的只有输入新闻文本内容,AI 合成主播将可以用类似真人的声音进行播报,并且让画面中 AI 主播的唇形、表情与真人吻合。

根据此前的报道,搜狗在第三季度全面升级了语音识别模型,使中文语音识别错误率下降 20% 以上,中英文语音混输错误率下降 50% 以上。

 

图片来自 新浪科技