明星偶像的产生不止源于三次元。从初音未来到赫兹,虚拟偶像的出现立刻将广大的二次元群体吸引,并聚合了强大的粉丝效应。不过,外行看热闹,内行看门道。究竟什么样的技术在支撑着这风风火火的虚拟偶像热?

其中,如优他动漫科技这样的语音合成技术公司就是核心的参与者。该公司致力于开发可高度还原人类声音的语音/歌声合成引擎。据悉,其是国内首家以独立自主研发的中文语音合成引擎(MUTA)为核心,同时开发并设计具备感情模式的云端音库包括动漫视音频制作等在内的数字虚拟鼓舞平台提供商。

“行业中大部分企业都把主要的精力放在语音理解中。而把语音合成,做到跟人一样是我们的最终目标。” 优他动漫科技的 CEO 邱志豪说。

其服务的产品包括虚拟歌姬形象嫣汐、琉璃、友绘等,为 2 娘(B 站)、蒂菲尔(西山居)、琥珀虚颜、未央、希声(中国电信)等提供歌姬声库制作。

据邱志豪回忆到,2014 年,很少有国内公司愿意做虚拟偶像。后来,市场出现的也是真人配虚拟的形象,用一个虚拟的角色配上真人歌手。“但这样的形式很难抓住用户的。因为是官方运营的话,用户就没有产出。虚拟 IP 很难持续化,除非官方得不停投入资源。“他说。“实际上明星的流量主要靠绯闻,热点,或者各种吃瓜过程积累。官方还是要给用户提供赋能,用户才会基于这些梗再去产生更多的内容,将 IP 做大。” 他补充道。

邱志豪认为在语音合成的虚拟偶像应用上,需要有持续的解决方案,才可以增加用户的活跃度以及粉丝的黏度。所以,优他动漫科技提供了中文语音合成引擎 MUTA。首先,可以基于这套引擎做的虚拟偶像,后面其还提供做粉丝运营的 APP。据悉,粉丝可以在 APP 里面用各明星的声音,进行一个二次的创作或者二次运营也好。“假如周杰伦封麦了,我们还可以通过电脑去用他的声音创作歌曲。” 邱志豪说。

据介绍,该 APP 操作简单,没有专业乐理基础的用户也可以轻易上手。仅需户输入任意语句,系统即可合成高品质的语音或者歌曲。就像我们拍照片后修图直接在软件内选择需要的滤镜一样,用户可以创作一段歌词,然后选取喜欢的乐曲风格,人声进行组合。“以前的软件不是专业音乐人根本用不了,我们希望能做一套,让每个人动手打字就可以创作的软件。” 邱志豪介绍道,优他动漫科技的技术有三方面明显的优势:

一:音质优秀,可适应复杂的语言。音库体积小,市面上唯一可适用于 APP 上的歌声合成技术。

二:制作周期短,还原度高,可保留 90% 以上原声音色与自然度 。

三:人声自动适应歌曲减少 80% 的调教量 。

此外,邱志豪透露,MUTA 已经到了 3.0 引擎时代。MUTA 3.0 最大的特点即是加上了人工智能,可以将普通、悲伤、快乐三个情感模式混合,基于语音合成可以做出有情感化的内容。

而且和许多传统的语音合成不同的是,MUTA 3.0 可以基于 DNN 网络来学习人的声线,发音方式,还有语气。来学习人的习惯和音色,并推测其发音、声线。“所以不需要唱每个音,只需要一段素材,电脑就可以推测一些没唱过的音,然后按照这个人的风格和发音方式进行模拟。” 邱志豪说。

而传统的语音合成方式需要人在录音棚里说中文所有的字,记录发音。这个过程基本上得录很久。“我们的方式是你在录音棚里读 2000 句话。500 句开心,500 句悲伤,让机器学习你的情感。对一个明星来说的话,他不可能在录音棚里录六个月。” 邱志豪解释道,MUTA 只需要拿到这个人大概 30 分钟的歌唱素材就可以训练出来跟这个人差不多一样的声库。“MUTA 3.0 想要解决的问题就是在有限的素材下,能够继续学习。” 他说。

其 APP 是在去年上线,目前大概有 150 万首用户填词的歌曲。此外,目前,APP 对 C 端用户免费。邱志豪透露,接下来会考虑推出一些付费的服务。此外,邱志豪还表示,为了能做到赫人声一样的效果,接下来会推出更大的技术突破。“人声音的采样越高越好,真正达到高保真的声线是 4800 赫兹的采样,我们在 3.0 已经做到了 1200 赫兹,4.0 可以做到 4800 赫兹,就是说它可以真正意义上实现和真人一样的声音。” 他说。

据悉,优他动漫科技已经完成了天使轮和 A 轮融资,其中融资方包括 B 站。