人工智能配音演员如何“以假乱真”

简介: 人工智能生成的声音质量得到了迅速提高,人工智能配音演员可以为商业演示和企业广告提供流畅的画外音。这大大提高了效率,同时降低了成本。但人类说话的某些方面很难被模仿,那些更复杂的配音表演——比如令人信服的《哈姆雷特》——仍然遥不可及。

人工智能语音初创公司Sonantic表示,他们在音频深度模仿方面取得了一项小小的突破,创造出了一种可以表达挑逗和调情等微妙情感的合成声音。该公司表示,其进步的关键是将非语言声音融入到音频中:训练人工智能模型重现那些微小的呼吸气息,诸如微小的嘲笑和半隐藏的笑,使得人工智能的声音打上真实的生物印记。

f598bd18506f45e299b838aba703b384f5064b.jpg

Sonantic的研究目标是看看人工智能是否可以模拟微妙的情绪,诸如愤怒、恐惧、高兴、悲伤和富于感情等。

Sonantic的首席执行官齐娜·库雷希(Zeena Qureshi)将该公司的软件描述为“声音的Photoshop”。它的界面可以让用户输入他们想要合成的语音,指定讲话的语气,然后从一组人工智能声音中选择,这些声音大部分都是模仿真人演员的。这绝不是一种独一无二的产品(其竞争对手,如Descript也销售类似产品),但Sonantic表示,其定制化程度比竞争对手更深入。

情感选择包括愤怒、恐惧、悲伤、幸福和喜悦。如今最新选项还包括调情、忸怩、戏弄和自夸。“导演模式”允许进行更多的调整:声音的音调可以调整,声音的强度可以上下调节,还有那些非语言的声音,比如笑声和呼吸。

这是Sonantic的主要特色:指导、控制、编辑和塑造表演的能力。目前客户大多是游戏工作室和娱乐工作室,但公司正在向其他行业拓展。早些时候,刚刚与奔驰达成了合作(定制其车内数字助手)。

然而,就像此类技术的常见情况一样,Sonantic成就的真正基准是其机器学习模型的音频,而不是那些经过润色的、为公关准备好的演示版本。

人工优化是为了最大限度地发挥AI声音的作用。许多人工智能的努力都是如此,比如自动驾驶汽车,它们已经成功实现了非常基本的驾驶自动化,但仍在努力实现最后也是最重要的那5%的人类能力。这意味着要实现完全自动化、完全可信的人工智能语音合成还有很长的路要走。

不过除了技术本身的问题,Sonantic的研究还引发了其他问题——比如,部署调情AI的道德标准是什么?以这种方式操纵听众公平吗?为什么Sonantic要把调情的形象塑造成女性呢?(在男性占主导地位的科技行业,这种选择算不算一种微妙的性别歧视。)

Sonantic表示,他们选择女性声音只是受到了斯派克·琼斯(Spike Jonze) 2013年的电影《她》(Her)的启发。在这部电影中,主人公爱上了一名名为萨曼莎(Samantha)的女性人工智能助理。另一方面,Sonantic表示已经认识到伴随新技术发展而来的道德困境,并且在如何以及在何处使用人工智能声音方面非常谨慎。

首席执行官库雷希表示:“这是我们坚持从事娱乐业务的最大原因之一。它被用于最好的娱乐产品和模拟。“

将人工智能语音合成与其他娱乐产品进行比较是合理的。毕竟,我们可以分辨电影和电视剧的真假(因为它们都是假的)。

但还有一点需要说明的是,人工智能将允许大规模部署此类操纵,而较少关注其在个别案例中的影响。例如,在世界各地(包括国内),人们已经开始与人工智能聊天机器人建立关系,甚至坠入爱河。给这些机器人添加人工智能生成的声音肯定会让它们变得更强大,这引发了人们对这些和其他系统应该如何设计的疑问。如果人工智能的声音可以令人信服地调情,它们会说服你做什么?


本文转载自51CTO,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】

相关文章
|
3月前
|
人工智能 运维 供应链
20个低代码开发平台多维度对比:解锁企业应用开发新动能
Gartner 报告指出,到 2024 年,低代码应用开发将占应用开发总数的 65%以上,将有 3/4 的大型企业会使用至少 4 个低代码平台进行 IT 应用开发。同时,市场研究机构的数据显示,在传统开发模式下,超过 70% 的企业项目存在开发周期延长的问题,平均延长时间达到原计划的 30%;约 80% 的企业表示在招募专业开发人才时面临困难;而面对个性化需求,近 90% 的企业认为传统开发响应速度慢,无法及时满足业务变化需求。这些数据充分表明,当前企业在应用开发上面临问题具有普遍性和严重性,低代码开发平台的兴起势在必行 ,其有望成为解决这些难题、推动企业数字化转型的关键力量。
524 0
|
2月前
|
人工智能 自然语言处理 算法
AI 英语学习 APP的开发
开发AI英语学习APP进入“智能体时代”:打造听、说、读、写全交互系统。涵盖虚拟外教、写作教练、自适应阅读与多维报告,结合国产大模型与语音技术,实现低延迟、高合规的个性化学习体验。(238字)
【分布鲁棒】多源动态最优潮流的分布鲁棒优化方法
【分布鲁棒】多源动态最优潮流的分布鲁棒优化方法
|
存储 算法 安全
深入浅出:用C++实现二叉堆的艺术
深入浅出:用C++实现二叉堆的艺术
477 0
|
自然语言处理 对象存储 知识图谱
智能客服对话系统解决方案
针对问题咨询场景中出现大量相关领域的问题,PAI提供了智能客服对话系统解决方案,以降低客户等待时间和人工客服成本。本文以汽车售前咨询业务领域为例,介绍如何基于人工智能算法,快速构建智能客服对话系统。
智能客服对话系统解决方案
|
安全 Shell Linux
【Shell 命令集合 系统管理 】Linux 终端复用工具 screen命令 使用指南
【Shell 命令集合 系统管理 】Linux 终端复用工具 screen命令 使用指南
394 0
|
人工智能 数据挖掘 Sentinel
Google Earth Engine ——Sentinel1/2/3/5p 影像集合介绍
Google Earth Engine ——Sentinel1/2/3/5p 影像集合介绍
343 2
|
XML API 网络架构
API的类型及其区别是什么?
API的类型及其区别是什么?
971 0
|
存储 机器学习/深度学习 人工智能
计算机的历史发展及原理
计算机的历史发展及原理
915 0