我训练了一个AI来复制我的声音,结果吓坏了我

简介:

过去一年以来,我在文章中提到过多家专业从事语音合成技术的企业。其大多数处于早期开发阶段,只有少部分能够拿出可供参考的预制样本。如今,来自蒙特利尔大学学习算法研究所的研究人员们则正式推出一款工具,可供大家自行体验这种新型技术。

 

这款工具名为Lyrebird,其公开beta测试版只需要利用长度为1分钟的音频即可生成与用户语音特征高度相似的数字语音输出结果。据称,这项技术适用于个人语音助理构建、游戏数字化角色设计、有声读物等语音内容表达。当然,如果你深爱自己性感的嗓音并希望将一切内容都转化为这种形式,该工具同样能够帮上大忙。

 

我决定亲自加以尝试——而且必须承认,结果实在令我感到又惊又喜。

 

我训练了一个AI来复制我的声音,结果吓坏了我

 

以下为我录制的用于训练该系统的音频片段:(由于限制,文章只能插播一个音频,因此决定只放AI合成声音,更多详情见下文视频)

 

以下则为数字化语音片段,其读出了我输入Lyrebird的文本内容——且包含大量我在进行系统训练时并未使用的词语:

 

没错,请戴上耳机认真聆听这段惊世骇俗的输出结果。

 

最令人不可思议的是,这样一款公开的工具能够利用一小段音频样本带来如此出色的语音效果。诚然,现在我们还无法利用基于Lyrebird的应用生成足以骗过任何聆听者的语音:我们必须首先录制屏幕上显示的句子,并利用此段音频进行系统训练。更具体地讲,大家还不可能随意上传一段一分钟长度的金正恩讲话音频,并借此生成足以以假乱真的其它语音内容。

 

我训练了一个AI来复制我的声音,结果吓坏了我

Lyrebird系统需要30个句子(音频长度约为1分钟)来创建数字化语音输出结果。

 

此外,其生成的音频可能还经不起详细推敲——音频取证专家完全能够通过分析发现其中的异常与线索,从而证明其属于合成产物。但必须承认,其足以造成相当可观的误导性效果——举例来说,印度就一直忙于整顿WhatsApp当中充斥的虚假新闻与恶作剧性言论,而Lyrebird完全可被用于快速传播此类错误信息。

 

同样值得注意的是,这还仅仅是语音合成技术的开端。Lyrebird项目在说明文档中提到,其获得的音频样本越丰富,数字语音输出结果质量就越好。Adobe公司还在研究VoCo项目,其旨在开启音频录制编辑的可能性,这意味着未来音频编辑将如同在文档当中复制/粘贴文本一样轻松。

 

 

 

Lyrebird项目提到,其核心主旨在于为社会作出贡献:

 

我们向任何潜在用户提供这项技术,亦在逐步推出更为完善的方案以确保社会能够适应这项技术,并立足积极层面取得良好效果——同时尽可能防止潜在的负面应用方式。

 

其还提供多种方式以对您提交的任何音频加以分析,并借此判断音频内容属实或存在伪造迹象。

 

与此同时,项目研究人员还表示只要获得他们的许可,Lyrebird即可为任何用户提供高质量数字语音输出结果。目前尚不清楚Lyrebird方面打算如何验证相关授权申请,以及用户是否需要像前文提到的那样对系统进行训练——抑或仅需要录制目标语音并向项目组提交音频文件即可。

 

我们是否应该为此感到担忧?也许目前还没必要——但考虑到技术进步的速度如此惊人,特别是机器学习领域的飞速发展,未来我们可能将面临完全不同的状况与挑战。

 

另一个问题在于,我们还缺少用于分析伪造音频的文化、习惯或者易于使用的工具。这意味着成为欺诈分子的门槛很低,而发现虚假信息传播者的难度也将因此而提高。

 

目前还很难确定这款新工具的面世,是否意味着网络将很快被伪造音频所淹没。但不能否认的是,合成音频将很容易成为恶意人士的另一种攻击载体——对于这样的隐患,我们显然还没有做好充分的应对准备。




原文出处:科技行者
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。
目录
相关文章
|
3月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
27天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
109 19
|
2月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
57 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
5天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
15 0
|
2月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
149 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
90 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
3月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
3月前
|
人工智能 PyTorch 算法框架/工具
AI计算机视觉笔记二十二:基于 LeNet5 的手写数字识别及训练
本文介绍了使用PyTorch复现LeNet5模型并检测手写数字的过程。通过搭建PyTorch环境、安装相关库和下载MNIST数据集,实现了模型训练与测试。训练过程涉及创建虚拟环境、安装PyTorch及依赖库、准备数据集,并编写训练代码。最终模型在测试集上的准确率达到0.986,满足预期要求。此项目为后续在RK3568平台上部署模型奠定了基础。
|
3月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
3月前
|
存储 人工智能 数据可视化
AI计算机视觉笔记二十一:PaddleOCR训练自定义数据集
在完成PaddleOCR环境搭建与测试后,本文档详细介绍如何训练自定义的车牌检测模型。首先,在`PaddleOCR`目录下创建`train_data`文件夹存放数据集,并下载并解压缩车牌数据集。接着,复制并修改配置文件`ch_det_mv3_db_v2.0.yml`以适应训练需求,包括设置模型存储目录、训练可视化选项及数据集路径。随后,下载预训练权重文件并放置于`pretrain_models`目录下,以便进行预测与训练。最后,通过指定命令行参数执行训练、断点续训、测试及导出推理模型等操作。