很多人比较感兴趣的一个话题是“数字永生”:即便有一天真人不在了,他也可以通过数字化的形象住在虚拟的元宇宙里,按照生前的思维、性格和习惯继续存在、获得永生。声音的数字是基于声音克隆真人的声音出来,让声音永久活下去!
当然,“数字永生”(数字永生:zhibo175)的想法目前还有点天马行空,模仿人类思维的技术迄今为止仍未出现。不过,人类的声音却是能够模仿的,而且还有公司已经打造了能够以假乱真的AI系统。
让歌手的声音“活下去”:AI可以模仿歌手唱新歌
随着AI语音成为娱乐新业务的核心部分,声音克隆技术可能并不算什么新鲜事。
去年,韩国SM娱乐联合韩国电信发布了艺人AI语音提示服务,选用了EXO伯贤、Red Velvet Joy和NCT泰容等艺人的声音。2月份的时候,游戏公司NCSoft在他们的粉丝社区平台Universe开启了虚拟通话服务,粉丝们可以通过该服务与他们喜欢的偶像进行(AI语音)通话。
声音克隆技术可以让观众听到歌手在虚拟音乐会期间叫他们的名字,或许可以跟他们说“生日快乐”,全球的粉丝都可以用自己听得懂的语言收到来自韩国艺人的真实问候。
不可否认,用AI模仿真人唱歌的方法是可取的,而且是很有创意的。除了音乐行业之外,游戏业也能够将该技术用于和知名艺人的深度联动,让音乐与游戏重叠用户得到更个性化的体验。
声音克隆 - 音频采集规范:
1、音频时长
有效音频时长20分钟,如果带口音,音频建议不少于30分钟;
2、录音准备
根据不同使用需求,准备5000字左右的文本内容,内容和应用场景(朗读、直播、日常讲话等)语境相符;
3、录音环境
录音环境安静,环境底噪小于40dB,可使用“分贝仪”APP测试录音环境底噪;
录制时保持无回音、无混响、无噪声等;
4、录音设备及录音参数
录音设备推荐降噪麦克风/小蜜蜂,条件允许建议使用防风棉衣或防喷罩; 推荐使用48kHz采样率录制音频;
推荐无损音质格式保存音频,如: wav、 fiv、m4a,不能使用压缩格式保存音频,如:mp3;
5、录音人
录音人不宜离麦太近,防止喷麦和录入呼吸声连贯说完一句话; 发音清晰、吐字清楚,句与句之间断句清楚; 句与句之间停顿1~2秒; 保持语境风格一致,避免多种情绪混杂。
将真人声音克隆出来,那就意味着歌手可以用声音的方式“永生”他的声音及歌声继续存在,实现永生的目的!