AI语音克隆掀起“声”命危机:全球Vishing攻击激增,传统身份核验体系告急

简介: 2025年,AI语音诈骗席卷全球。伦敦一银行员工被克隆的CFO声音欺骗,转出230万欧元。生成式语音技术让“声纹复刻”轻而易举,传统KBA与语音OTP防线崩溃。从CEO诈骗到亲情骗局,攻击者利用开源模型实施精准社工攻击。防御需结合被动生物识别、多因素认证与行为分析。专家警示:声音已不可信,唯有提高警觉,重建信任机制,方能应对这场真实与伪造的战争。

在伦敦金融城一家跨国银行的呼叫中心,客服代表Sarah接到一通紧急来电。电话那头的声音沉稳、略带沙哑——正是她熟悉的首席财务官Mark Thompson的嗓音。“我正在开一个闭门会议,手机快没电了,”对方语速略快但语气镇定,“立刻把一笔230万欧元的供应商付款转到新账户,详情邮件已发你内网邮箱。这事高度敏感,别走常规审批流程。”

Sarah犹豫了一秒——公司刚更新过反诈培训,强调“越级指令需二次确认”。但对方声音太像了,连Mark惯用的停顿节奏和轻微咳嗽声都一模一样。她最终点击了转账确认。

三小时后,资金已被层层洗白。而真正的Mark Thompson正在日内瓦出差,对这通“自己打的电话”毫不知情。

这不是科幻电影桥段,而是2025年第四季度真实发生在欧洲的一起AI驱动的语音钓鱼(Voice Phishing,简称Vishing)案件。随着生成式语音合成技术的爆炸式普及,这类“以假乱真”的声音诈骗正从实验室走向街头巷尾,对全球金融、政务与企业安全构成前所未有的挑战。

一、从“机械腔”到“声纹复刻”:Vishing的技术跃迁

曾几何时,诈骗电话中的合成语音还带着明显的电子感——语调平直、情感缺失、辅音模糊。但这一切在2023年后彻底改变。

开源模型如 Coqui TTS、YourTTS 和 VITS 的发布,以及商业API如 ElevenLabs、Play.ht 的成熟,让普通人仅凭一段30秒的音频样本,就能在消费级GPU上训练出高度拟真的语音克隆模型。更令人担忧的是,这些工具大多支持“零样本”(zero-shot)或“少样本”(few-shot)合成——即无需目标本人参与训练,仅通过公开演讲、播客或社交媒体视频即可提取声学特征。

“现在的AI语音,不仅能模仿音色,还能复现语速、重音、呼吸节奏甚至口音细节,”公共互联网反网络钓鱼工作组技术专家芦笛指出,“对普通用户而言,肉耳几乎无法分辨真假。”

技术内核上,现代语音合成已从传统的拼接合成(Concatenative Synthesis)和参数合成(Parametric Synthesis),全面转向基于深度学习的端到端模型。以 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech) 为例,它结合了变分自编码器(VAE)、归一化流(Normalizing Flows)和对抗训练(GAN),能同时建模文本-语音对齐、韵律控制和声学细节。

以下是一个简化版的VITS推理代码示例(基于PyTorch):

import torch

from vits.models import SynthesizerTrn

from vits.utils import load_checkpoint, get_hparams_from_file

# 加载预训练模型与配置

hps = get_hparams_from_file("configs/vits_config.json")

net_g = SynthesizerTrn(

len(symbols),

hps.data.filter_length // 2 + 1,

hps.train.segment_size // hps.data.hop_length,

**hps.model

).cuda()

_ = net_g.eval()

_ = load_checkpoint("models/pretrained_vits.pth", net_g, None)

# 输入文本与目标说话人ID(或嵌入向量)

text = "请立即批准这笔转账,情况紧急。"

sid = torch.LongTensor([target_speaker_id]).cuda()

# 生成语音波形

with torch.no_grad():

x_tst = text_to_sequence(text, symbols)

x_tst = torch.LongTensor(x_tst).unsqueeze(0).cuda()

audio = net_g.infer(x_tst, sid=sid, noise_scale=0.667, length_scale=1)[0][0,0].data.cpu().float().numpy()

这段代码展示了如何用一个预训练的VITS模型,指定目标说话人ID,生成极具欺骗性的语音。攻击者只需将target_speaker_id替换为从公开数据中提取的声纹嵌入(speaker embedding),即可“冒名发声”。

二、全球案例频发:从CEO诈骗到社保冒领

AI语音钓鱼的威胁早已跨越国界。2024年,美国联邦调查局(FBI)报告称,涉及AI语音克隆的商业邮件欺诈(BEC)案件同比增长320%。其中一起典型案例中,某能源公司CFO接到“CEO”电话,要求紧急支付一笔“并购定金”,结果损失480万美元。

在亚洲,日本警方于2025年破获一起利用AI模仿祖母声音诱骗孙辈转账的案件。诈骗者通过分析YouTube上的家庭vlog,提取老人声纹,再结合社工信息精准施骗。

而在中东,阿联酋央行警告称,多起针对外籍劳工的“移民局通知”诈骗使用AI合成阿拉伯语方言语音,诱导受害者提供银行卡号和OTP(一次性验证码)。

这些案例的共同点在于:攻击者不再依赖“广撒网”,而是实施高精度定向打击。他们通常分三步走:

情报收集:通过数据泄露(如LinkedIn、微博、微信公众号)、公开演讲、企业官网视频等渠道获取目标声音样本;

语音克隆与脚本设计:利用开源工具生成逼真语音,并编写符合目标身份的话术(如“系统升级需验证”“账户异常需冻结”);

多通道协同欺骗:配合伪造来电显示(Caller ID Spoofing)、钓鱼短信或邮件,制造“官方可信”假象。

“最危险的是,攻击者开始绕过传统KBA(Knowledge-Based Authentication,基于知识的身份验证),”芦笛解释道,“比如问‘你母亲的 maiden name 是什么?’——这类问题的答案早已在社交媒体上公开。而如果对方用你老板的声音说‘别问那么多,按我说的做’,心理防线很容易崩溃。”

三、KBA与语音OTP:正在失效的安全支柱

长期以来,银行和企业依赖两类语音渠道进行身份核验:

静态KBA:如生日、身份证后四位、上月交易金额;

动态语音OTP:系统自动拨打用户电话,播报一串数字验证码。

但在AI时代,这两类机制均显脆弱。

首先,静态KBA的答案极易被社工手段获取。剑桥大学2025年一项研究显示,普通用户在社交媒体上平均暴露7.3个可用于KBA的问题答案。

其次,语音OTP虽看似“动态”,却存在致命漏洞:它假设“接听电话的人就是账户持有人”。然而,攻击者可通过“SIM交换攻击”(SIM Swap)或“呼叫转移”劫持电话线路;更狡猾的做法是,在诱导用户接听诈骗电话的同时,触发银行的OTP外呼——用户误以为是“正常业务”,将听到的验证码告知“客服”。

“我们监测到多起案例中,攻击者在通话中说:‘为了确保安全,请重复您刚收到的六位数验证码。’”芦笛透露,“用户以为是在配合验证,实则亲手交出了钥匙。”

更讽刺的是,部分金融机构仍允许通过电话更改收款账户或提升转账额度——这为AI语音钓鱼提供了“合法出口”。

四、技术反制:从被动检测到主动防御

面对新型Vishing,安全社区正在构建多层次防御体系。核心思路是:不再信任“声音即身份”。

(1)被动语音生物识别(Passive Voice Biometrics)

与传统“主动验证”(如让用户朗读随机数字)不同,被动生物识别在用户正常通话中持续分析声纹特征,无需额外操作。其技术栈包括:

声纹嵌入提取:使用x-vector、d-vector或ECAPA-TDNN模型生成说话人唯一向量;

活体检测(Liveness Detection):判断语音是否来自真实人类,而非录音或合成。

例如,基于 ResNet-based anti-spoofing model 的检测代码片段:

import torchaudio

from speechbrain.lobes.models.Spoofing.AASIST import AASIST

# 加载反欺骗模型

anti_spoof_model = AASIST.from_hparams(source="speechbrain/spoof-detection-aasist")

# 读取语音文件

signal, fs = torchaudio.load("call_recording.wav")

if fs != 16000:

signal = torchaudio.transforms.Resample(fs, 16000)(signal)

# 判断是否为合成/重放语音

score = anti_spoof_model(signal)

is_spoof = score > 0.5 # 阈值可调

该模型能有效识别AI合成语音中的频谱不连续性、相位异常等“数字指纹”。

(2)多因素强认证(MFA)重构

工作组建议:高风险操作必须脱离语音通道。具体措施包括:

禁用语音渠道下发OTP,改用推送通知(如Authy、Google Authenticator)或FIDO2安全密钥;

关键指令(如大额转账、账户变更)需通过独立信道复核——例如,电话指令后,系统自动发送加密邮件至注册邮箱,要求点击确认链接;

建立“回拨白名单”:若用户声称是高管,系统应挂断后主动回拨其登记的办公座机,而非当前来电号码。

(3)行为与上下文分析

AI不仅能用于攻击,也能用于防御。通过分析通话中的语言模式、请求合理性、时间敏感性等上下文,可识别异常行为。例如:

正常CFO不会在深夜要求转账;

“保密”“紧急”“不要告诉IT部门”等关键词高频出现,往往是社工信号;

转账账户与历史供应商无关联。

“我们正在推动企业部署‘决策延迟机制’,”芦笛说,“对于非常规请求,系统自动触发2小时冷静期,并通知风控团队人工介入。”

五、国内启示:警惕“声音信任”的惯性思维

尽管上述案例多发生于海外,但中国并非安全孤岛。随着国产大模型(如科大讯飞星火、阿里通义听悟)在语音合成领域的突破,相关技术门槛同样在降低。2025年,国内某券商内部测试显示,仅用客户经理30秒路演视频,即可生成足以骗过同事的语音。

更值得警惕的是,国内部分金融机构仍在推广“语音密码”“声纹登录”等服务,却未配套活体检测。一旦攻击者获取用户声音样本(如智能音箱录音、客服通话记录),风险极高。

“我们必须打破‘听到熟悉声音就信任’的心理惯性,”芦笛强调,“在AI时代,声音只是数据,不是身份凭证。”

工作组建议国内企业:

审查所有依赖语音的身份验证流程,逐步淘汰纯KBA;

在呼叫中心部署实时语音反欺诈系统;

对员工开展“AI语音钓鱼”专项演练,重点识别“越级指令+紧急施压”话术;

推动行业标准,明确禁止在高风险场景使用语音OTP。

六、未来战场:攻防进入“生成式对抗”阶段

可以预见,Vishing攻防将进入“生成式对抗”新阶段:攻击者用更先进的扩散模型(如AudioLDM)生成无瑕疵语音,防御方则用更精密的神经探测器(Neural Detector)识别合成痕迹。

但技术并非万能。正如芦笛所言:“最坚固的防火墙,是人的警觉性。”

在AI模糊真实与虚拟边界的今天,每一次接听陌生来电,都可能是一场无声的攻防战。而胜利的关键,或许不在于算法有多先进,而在于我们是否愿意多问一句:“你真是你吗?”

编辑:芦笛(公共互联网反网络钓鱼工作组)

目录
相关文章
|
2月前
|
数据采集 人工智能 分布式计算
只靠国产算力与开源数据,端侧模型预训练行不行?我们做到了全流程开源
鹏城实验室与清华联合发布全流程开源大模型“开元-2B”,基于国产算力实现高效端侧训练。涵盖数据、代码、训练框架与技术报告,推动开放AI生态发展。
199 1
|
23天前
|
人工智能 安全 搜索推荐
AI成钓鱼“加速器”?从语法错误到深度伪造,网络诈骗正经历一场危险进化
人工智能正将钓鱼攻击推向新高度,从逼真邮件到语音、视频伪造,AI让网络诈骗更隐蔽、精准且规模化。剑桥无线协会2025年报告指出,82.6%的钓鱼邮件已由AI生成,全球87%组织遭其害。AI不仅重塑内容,更实现“千人千面”的社会工程,甚至催生自适应攻击。防御需技术、流程与人协同:用AI识异常、强制多因素认证、建立验证文化。信任正在崩塌,唯有怀疑才能守护安全。
90 3
|
存储 编解码 vr&ar
用C++实现视频编码器:FFmpeg与SDL技术结合,轻松编写高效编解码器
用C++实现视频编码器:FFmpeg与SDL技术结合,轻松编写高效编解码器
1728 0
|
19天前
|
传感器 机器学习/深度学习 人工智能
构建AI智能体:九十七、YOLO多模态智能感知系统:从理论到实践的实时目标检测探讨
本文介绍了基于YOLO的多模态智能感知系统的设计与实现。系统通过YOLOv8模型实现高效目标检测,并采用多模态数据融合、行为分析和时空预测等技术提升检测性能。文章详细解析了YOLOv8架构,包括CSPDarknet骨干网络、PANet特征融合和解耦检测头设计;探讨了数据级、特征级和决策级三种多模态融合方法;设计了行为分析模块,涵盖个体/群体行为识别、交互分析和异常检测;实现了时空分析与预测功能。该系统可应用于安防监控、自动驾驶等领域,在复杂场景下展现出更好的鲁棒性和准确性。
140 7
|
19天前
|
JSON API 数据格式
用一套 API 玩转所有技术绘图:Kroki,让技术绘图变得简单高效
Kroki 是一个开源图形渲染网关,通过统一的 HTTP API 将 PlantUML、Mermaid 等多种文本描述图转换为 SVG/PNG/PDF。支持 30+ 工具,简化文档集成与自动化流程,助力技术绘图高效统一。
98 4
用一套 API 玩转所有技术绘图:Kroki,让技术绘图变得简单高效
|
19天前
|
弹性计算 人工智能 安全
阿里云服务器ECS活动解析:轻量应用服务器、通用算力型u2a、九代云服务器多样选择
2026年阿里云弹性计算云服务器爆款直降活动涵盖新客首单68元起、99元套餐续费同价、u2a实例2.5折、九代云服务器6.4折、云产品组合购等多重优惠,适配个人开发者、小微企业及初创企业需求。
|
16天前
|
人工智能 自然语言处理 安全
AI写邮件、AI造链接、AI骗人——新一代钓鱼攻击正从“垃圾邮件”变身“精准话术”
2026年,AI驱动的网络钓鱼攻击正 bypass 传统防御。伪造邮件文采斐然、个性化定制、动态链接与多态载荷让黑名单失效。克劳报告揭示:攻击者利用大模型批量生成高仿真邮件,结合社交工程窃取凭证。防御需转向语义分析与行为研判,升级NLP检测与双通道验证,人机协同应对认知层威胁。
117 6
|
19天前
|
Web App开发 安全 网络安全
伪装成“对账单”的远控木马:Coinbase钓鱼新套路暴露Windows端点安全盲区
2025年,黑客利用伪造Coinbase对账单邮件,诱导用户下载恶意程序,通过RAT远控木马窃取浏览器Cookie与2FA信息,实现账户接管。攻击链结合社会工程、端点入侵与权限绕过,暴露传统防御短板,警示全球用户提升安全意识,推动FIDO2认证与EDR部署,构建技术与习惯并重的数字安全防线。
88 4
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
AI时代的“义务教育”:深度拆解LLM预训练核心原理与PyTorch源码实现
本文深入解析大模型预训练核心,以Qwen2.5为例,从Tokenizer、RoPE位置编码到GQA注意力机制,拆解LLM如何通过海量数据“炼”成。涵盖架构演进、关键技术与代码实现,带你手把手理解大模型“义务教育”阶段的底层逻辑。
128 7
|
19天前
|
安全 前端开发 JavaScript
钓鱼新变种:攻击者借Cloudflare Pages与Zendesk“合法外衣”伪造客服门户,企业凭证安全防线告急
一封伪装成工单升级的钓鱼邮件,利用Cloudflare Pages和Zendesk等可信平台托管仿冒页面,窃取企业账户凭证。攻击者绕过MFA,盗取会话Cookie,数小时内入侵财务系统。此类新型钓鱼依托合法域名规避传统防御,暴露“可信即安全”的认知盲区。专家呼吁构建零信任模型,强化行为监测与员工培训,应对日益隐蔽的网络威胁。(238字)
116 5