AI 换脸余波未褪,AI 换声进行电话诈骗的戏码竟也成真了!不得不说,现在确实已经很难区分出利用深度伪造 (deep fake) 技术制作的假文本、假视频。而近日,这种现象似乎又延伸到了假语音领域——一家公司就因为近期发生的一起语音欺诈案件损失了 20 万英镑(合约 24.3 万美元)。
AI 换脸余波未褪,AI 换声进行电话诈骗的戏码竟也成真了!不得不说,现在确实已经很难区分出利用深度伪造 (deep fake) 技术制作的假文本、假视频。而近日,这种现象似乎又延伸到了假语音领域——一家公司就因为近期发生的一起语音欺诈案件损失了 20 万英镑(合约 24.3 万美元)。
据《华尔街日报》报道,今年 3 月份,网络犯罪分子利用一款基于 AI 的软件模仿了一家德国母公司首席执行官的声音,并欺骗该公司旗下一家英国能源公司的经理向诈骗者控制的银行账户转款 24.3 万美元。
事情是这样的,英国某能源公司的一名高级管理人员接到了一个电话,由于电话另一端的声音非常耳熟,且同样带有轻微的德国口音,所以该高管就以为自己正在和德国母公司的老板通话,而对方要求他把一笔资金转给一家匈牙利供应商,并表示此事非常紧急,需要在一个小时内付款,另外还保证这笔资金会立即得到报销。
由于确信电话那头是老板的声音,所以该负责人就按要求将款项打给了匈牙利供应商。然而事实上,这笔汇款不仅没有得到报销,而且诈骗者又继续冒充这位德国老板要求另一笔紧急汇款。
不过这次,该高管注意到来电显示地点是奥地利,并拒绝了付款请求,随后便对该事件展开了调查。
据《华尔街日报》报道,这位英国 CEO 转给所谓的匈牙利供应商的这笔钱最终被转移到了墨西哥及其他地方。该案件目前尚在调查之中,但此次网络犯罪背后的罪犯身份尚未查明。
“语音网络钓鱼”(voice phishing,简称vishing)攻击并不新鲜,但此次事件可能是网络犯罪分子利用 AI 进行语音欺诈攻击的第一个案例。金融服务公司 Euler Hermes 的欺诈专家 Rüdiger Kirsch 表示,Euler Hermes 最终承担了受害公司索赔的全部金额,而该保险公司之前并没有处理过其他要求追回涉及人工智能犯罪的损失的索赔案件。
ESET 的网络安全专家 Jake Moore 预测称,不久的将来,我们会看到利用机器学习的网络犯罪大幅增加。我们已经看到深度伪造技术使用视频格式模仿名人和公众人物,但制作这些逼真的镜头要花 17 个小时左右。能够伪造声音需要较少的录音即可制作完成。随着计算能力不断提高,我们开始看到这些变得更容易制作,未来形势令人不安。
为了降低风险,不仅有必要让人们意识到这种模仿现在可以实现,还有必要在转账前加入验证技术。双因素身份验证是另一种有效、廉价且简单的技术,它增添了另一层安全性,可以保护打给流氓账户的资金安全。被要求转账时,尤其是大笔金额,请务必核查电话号码并要求回电。使用你地址簿中的号码,而不是点击通话记录中的 “回电” 选项。
在去年发布的一份报告中,Pindrop(一家为呼叫中心开发安全软件和协议的公司)发现,语音相关的欺诈案件——主要影响银行、信用合作社、基金公司、保险公司以及银行卡发行机构——在 2013 年至 2017 年的四年间增长了 350% 以上。
2016 年至 2017 年期间的整体语音渠道欺诈也增加了 47% ——相当于每 638 起欺诈电话中就有 1 个是人工合成的。
2017 年,东芬兰大学 (University of Eastern Finland) 的研究人员进行的一项研究警告称,被各种组织用作生物识别身份验证方式的语音识别系统非常容易被模仿者欺骗。
而事实上,利用 AI 克隆一个人的声音也不是什么新鲜事,百度去年就开发了 “Deep Voice” 软件,可以用不到 4 秒的时间克隆人声,此举也引发了业界对生物识别技术安全性的担忧。
除此之外,谷歌旗下的加拿大公司 Lyrebird,只需一分钟音频即可生成与用户语音特征高度相似的数字语音。
谷歌也发表过一篇题为《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》 (SV2TTS) 的论文,描述了一种用于文本到语音 (TTS) 合成的基于神经网络的系统,该系统能够以许多不同发言者的声音产生语音音频。
SV2TTS 是一个三阶段的深度学习框架,可以从几秒钟的音频中创建语音的数字表示,并使用它来调节文本到语音的模型,该模型经过训练可归纳为新的语音。也就是说,只需5秒钟的音频样本,就可以克隆一个人的声音。
由此可见,基于 AI 的工具的兴起既有优点也有缺点。一方面,它为技术的探索和创造提供了空间,而另一方面,它也为犯罪、欺骗以及欺诈提供了可能性。