快禁用“语音助手”!黑客可利用超声波劫持所有主流语音识别平台

简介:

假如你的智能手机开始打电话,发信息并浏览恶意网站,那是什么情况呢?这不是想象的事情,因为黑客可以通过手机语音助手实现这一操作。

来自中国浙江大学的一个安全团队发现了一种无需机主说话就激活语音识别系统的方法,而且此法适用于所有主流语音助手。

此法被取名为“海豚攻击”,攻击者将超声波频率导入语音助手的指令中,这种指令人类听不见,但却能被智能设备捕捉。

具备这一技术,网络罪犯就可以悄无声息地劫持Siri和Alexa等语音助手,而且可迫使语音助手打开恶意网站,甚至可能打开智能锁。

所有主流语音识别平台受影响

这种攻击适用于所有主流语音识别平台,影响的移动平台包括iOS和安卓系统。所以,无论你是用苹果还是Nexus还是三星,你的设备都存在风险。海豚攻击适用于一切语音助手,包括Siri,谷歌语音助手,三星S语音,华为HiVoice,Cortana以及Alexa,还有iPads,MacBook,亚马逊Echo甚至是奥迪Q3,总共16款设备,7种系统,无一幸免。

利用人耳不停听到的声波

此攻击利用了人耳不能接收20kHz频率以上声波的特性。但是麦克风软件可以检测20kHz频率以上的声波。海豚攻击使得语音助手很容易被劫持。

!!!!!(需要加视频)快禁用“语音助手”!黑客可利用超声波劫持所有主流语音识别平台-E安全

所以,为了展示海豚攻击,该团队首先将人声指令转变成超声波频率,然后再用配备了声波放大器的智能机回放指令,而超声波转译器和电池总售价不超过三美元(约人民币20元)。

攻击者利用这种技术可以做什么?

由于智能手机可以让用户通过语音指令完成大量操作,比如拨号,发信息,打开网页,将电话调成静音模式,所以研究者可以命令iPhone拨出特殊号码。

然而,攻击者还可以发送超声波指令让设备执行恶意操作,包括浏览恶意网页,并且可以从这样的网页发起下载驱动型攻击或者利用所劫持设备的零日漏洞进行攻击。

攻击者还可以进行:

监听操作——让劫持的设备拨出视频通话或拨出电话,然后就能获得访问设备图片和声音的权限。

输入虚假信息——攻击者可以让被劫持设备发送虚假信息,邮件并发布虚假帖子,或在日历中假如虚假事件。

DoS——可输入指令将设备调成飞行模式,从而断开所有WiFi连接。

可操作范围

掩饰攻击——由于屏幕显示和声效都会暴露攻击,所以攻击者可通过调暗屏幕和调低音量掩饰自己的攻击行为。研究者们通常发送的超声波频率是25到39kHz。攻击范围最大可达175厘米,具有很好的可操作性。

更糟糕的是,即便是攻击者没有直接访问设备的情况下,这种人耳听不见的指令在所有被测硬件上可以被语音识别系统准确翻译。

如果防御海豚攻击?

浙江大学这个安全团队建议设备厂商做一些硬件替换,将设备调整为自动忽略频率为20kHz的指令或者任何其他不能被人耳听到的指令。

!!!!!(需要加视频)快禁用“语音助手”!黑客可利用超声波劫持所有主流语音识别平台-E安全

研究者表示,“要改进麦克风,使其能拒绝任何超声波信号。例如iPhone 6 Plus的麦克风就能很好地防御人耳不能识别的指令。”

对于终端用户而言,防御这类攻击的快速方案是在官方补丁出来之前,关闭有语音助手的应用。

关闭语音应用简单步骤

禁用iPhone:

iPad或iPod touch上的Siri:进入“设置”页面→点击“通用”→点“访问限制”→Siri,禁用Siri即可。

关闭Cortana:

打开Windows PC端的Cortana,选择右边的Notebook图标,点设置,然后禁用Cortana。

关闭亚马逊Echo的助手Alexa:

关闭顶部元件的麦克风按钮,指示灯会变成红色,Echo就会停止响应你的唤醒指令,直到你再把麦克风打开。

关闭Google Home:

将Google Home的麦克风静音,按住后部的物理静音键。

该团队将会把自己的完整研究上报到下个月于德州达拉斯举行的“电脑与通讯安全”ACM会议上。

本文转自d1net(转载)

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
123 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
4月前
|
Ubuntu 机器人 语音技术
语音识别与语音控制的原理介绍
硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载音频驱动,设备启动之后只
279 83
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
3月前
|
Ubuntu 机器人 语音技术
语音识别与语音控制
【10月更文挑战第4天】硬件平台 机器硬件:OriginBot(导航版/视觉版)PC主机:Windows(>=10)/Ubuntu(>=20.04)扩展硬件:X3语音版 运行案例 首先进入OriginBot主控系统,运行一下指令。请注意,部分操作OriginBot内暂未放入,请根据内容进行适当处理。 cd /userdata/dev_ws/ # 配置TogetheROS环境 source /opt/tros/setup.bash # 从tros.b的安装路径中拷贝出运行示例需要的配置文件。 cp -r /opt/tros/lib/hobot_audio/config/ . # 加载
|
3月前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
75 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
6月前
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
通义语音大模型评测:迈向更自然、更智能的语音交互
随着人工智能技术的迅猛发展,语音识别和自然语言处理领域不断涌现出新的模型和应用。阿里云推出的通义语音大模型,正是在这一背景下应运而生。本文将对通义语音大模型进行详细评测,探讨其技术架构、应用场景、性能表现以及未来发展前景。
498 0
|
6月前
|
机器学习/深度学习 人工智能 API
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
|
8月前
|
机器学习/深度学习 自然语言处理 算法
什么是语音识别的语音助手?
【4月更文挑战第8天】
447 3
什么是语音识别的语音助手?
|
7月前
|
机器学习/深度学习 搜索推荐 安全
语音识别技术是一种将语音信号转换为文本或命令的技术,
语音识别技术是一种将语音信号转换为文本或命令的技术,