华裔教授AI解码脑电波,上演现实版“读脑术”,大脑所想直接合成文本或语音!

本文涉及的产品
文本翻译,文本翻译 100万字符
图片翻译,图片翻译 100张
语种识别,语种识别 100万字符
简介: 许多患有神经疾病的患者因丧失语言能力,需要依赖特定的通讯设备进行沟通,这类设备大多利用脑机接口或者头部、眼睛的动作来控制光标,以选择屏幕上的字母,从而拼出他们想说的句子。但是,这个蹦单词的过程,实在无法与人类的正常说话过程相比。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

许多患有神经疾病的患者因丧失语言能力,需要依赖特定的通讯设备进行沟通,这类设备大多利用脑机接口或者头部、眼睛的动作来控制光标,以选择屏幕上的字母,从而拼出他们想说的句子。但是,这个蹦单词的过程,实在无法与人类的正常说话过程相比。

3 月 30 日,《自然-神经科学》发表了美国加州大学旧金山分校华裔教授 Edward Chang 及同事开发的一款脑电波 AI 解码器,能够将大脑活动信号直接转化为句子文本。

image

具体而言,研究人员首先通过电极记录受试者说话时的神经活动信号,并用特定语句和神经信号特征之间的关联数据训练 AI 算法,试验证明,训练后的机器翻译算法能够准确地解码受试者的神经活动,并将其接近实时地翻译为句子文本,错误率低至 3%。

从大脑“读取”人的意图

说话似乎是一件毫不费力的事,但实际上说话却是人类执行的最复杂的活动之一。十多年前,科学家首次从大脑信号中解码语言,但是一直以来,语言解码的准确性和速度远远低于自然语言交流。

目前一些用于大脑控制打字的脑机接口技术,其实依赖的是头部或眼睛的残余非语言运动,或者依赖于光标控制以逐个选择字母并拼出单词,这种方式目前可以帮助瘫痪的人通过设备每分钟输出多达 8 个单词。

但与流程自然语言交流时每分钟 150 个单词的平均速度比起来,现有技术的输出速度还是太慢了。

image
使用特制语音合成器与外界交流的史蒂芬·霍金

理论上来说,脑机接口技术可以通过直接从大脑“读取”人的意图,并使用该信息来控制外部设备或移动瘫痪的肢体,来帮助瘫痪的人完成说话或运动。

为了获得脑机接口直接解码语言更高的精度,研究人员利用了机器翻译任务与从神经活动解码语音到的相似性。也就是说,和机器翻译类似,解码语言也是从一种语言到另一种语言的算法翻译,两种任务实际上映射到同一种输出,即与一个句子对应的单词序列。只不过,机器翻译的输入内容是文本,而解码语言的输入内容是神经信号。

于是,研究人员盘点了机器翻译领域的最新进展,并利用这些方法训练循环神经网络,然后尝试将神经信号直接映射为句子。

image
语言相关的神经活动解码过程

具体而言,研究人员通过电极记录四名受试者他们大声读出句子时的神经活动。之后,研究人员将这些数据添加到一个循环神经网络中,从而将规律性出现的神经特征表示出来,这些神经特征可能与言语的重复性特征(比如元音、辅音或发音器官接收的指令)相关。

接着,研究人员通过另一个循环神经网络逐字解码这种算法表示,形成句子。研究人员发现,明显参与言语解码的脑区,同样参与言语生成和言语感知。通过这种机器翻译算法,研究人员在一名受试者身上进行试验,结果证明通过神经活动解码为口头句子的错误率低至 3%。

此外,如果利用某人的神经活动和言语对循环网络进行预训练后再在另一名受试者身上进行训练,最终的解码结果有所改善,这意味着这种方法在不同人员之间或许是可转移的。但是,还需要开展进一步的研究来更加完整地调查这个系统的功能,将解码范围扩展到研究所限语言之外。

脑机接口+AI 合成语音

直接通过解码大脑活动信号来合成文本或语音,不只是一项科幻般的“读心术”,更是一种颇有前景的治疗方案。

控制光标进行单词拼写,只是离散字母的连续串联,而解码语言则是一种高效的通信形式。与基于拼写的方法相比,直接语音或文本合成具有诸多优点,除了以自然语速传递无约束词汇的能力之外,直接语音合成还能捕获语音的韵律元素,例如音调、语调等。

此外,对于由肌萎缩性侧索硬化或脑干中风引起的瘫痪患者,通过直接记录来自大脑皮层的神经控制信号来合成语音,是实现自然语言高通信速率的唯一手段,也是最直观的方法。

去年 4 月,Edward Chang 等人还在 Nature 杂志发表了开发出一种可以将脑活动转化为语音的解码器。这套人类语音合成系统,通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,并合成出受试者想要表达的语音。

image
Edward Chang 教授

为了重建语音,研究人员设计了一种循环神经网络(RNN),首先将记录的皮质神经信号转化为声道咬合关节运动,然后将这些解码的运动转化为口语句子。

整个过程分为两个步骤,第一步,将神经信号转换成声道咬合部位的运动(红色),这其中涉及语音产生的解剖结构(嘴唇、舌头、喉和下颌)。而为了实现神经信号到声道咬合部位运动的转化,就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动,因此他们建立了一个循环神经网络,根据以前收集的大量声道运动和语音记录数据库来建立关联。第二步,将声道咬合部位的运动转换成合成语音。

研究人员的这种两步解码方法,产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中,听者可以轻松地识别并记录下合成的语音。

在科幻世界里,通过意念信号控制外界设备十分酷炫,实际上,在现实世界中,其背后的脑机接口技术已有近百年的历史。

image

随着脑机接口领域科学研究与应用技术的不断突破,尤其是 AI 算法的加持,为许多当前仍无法解答的难题提供更好了的探索工具,不仅能够帮助人类进一步了解自己的大脑,更重要的是为诊断、治疗脑部及其它严重疾病提供了解决方案,甚至广泛应用于睡眠管理、智能生活和残疾人康复等领域。

参考资料:
https://nature.com/articles/s41593-020-0608-8
https://www.nature.com/articles/s41586-019-1119-1
https://mp.weixin.qq.com/s/ZjAW1CDUli1VXpWcNnF-sQ

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-03-31
本文作者:学术君
本文来自:“学术头条”,了解相关信息可以关注“学术头条

相关文章
|
20天前
|
存储 机器学习/深度学习 人工智能
告别信息焦虑,用这个国产AI工具做知识管理,大脑终于解放了
文章介绍了纳米AI知识库作为“第二大脑”的强大功能。它能高效管理海量信息,支持54种文件格式上传,自动提取关键数据并打标签,轻松整合工作与生活中的碎片化信息。通过场景测试显示,在工作和生活中,纳米AI可快速生成报告、提供精准数据,极大提升效率。其共享机制还促进了团队协作,释放了创造力,让用户从琐碎事务中解脱,专注于深度思考与创新。
|
7天前
|
人工智能 达摩院 搜索推荐
通义大模型:解码中国AI的"通"与"义"
“通义”取自中国传统文化中“通晓大义”,寓意技术与人文的结合。作为阿里巴巴旗下的超大规模语言模型,通义在知识蒸馏、动态稀疏激活和文化感知模块上实现三大突破,大幅提升效率与适切性。其已在医疗、司法、文化传播等领域落地,如辅助病历处理、法律文书生成及文物解说等。测试显示,通义在中文诗歌创作、商业报告生成等方面表现优异。同时,开放的开发者生态已吸引5万+创新者。未来,通义将探索长期记忆、自我反思及多智能体协作,向AGI迈进,成为智能本质的载体。其对中文语境情感的精准把握,更是中国AI“通情达义”的典范。
113 22
|
1天前
|
人工智能
WEB CAD 利用AI编程实现多行文本的二次开发
本文介绍了在MxCAD插件中实现自定义编辑器实体类的功能,重点展示如何通过MxCADMText类在CAD中渲染和管理富文本。文章详细说明了注册同心圆实体文本的步骤,包括实现自定义文本类、注册自定义文本以及交互式修改参数的方法。此外,还扩展实践了粗糙度实体文本的注册与应用,涵盖构造粗糙度自定义实体文本类、注册及初始化过程,并通过示例图展示了运行效果。这些功能可帮助用户将复杂图形以文本形式插入多行文本中,提升项目设计效率。
|
2月前
|
人工智能 API 语音技术
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
978 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
|
10天前
|
人工智能 JavaScript 搜索推荐
AI天马行空,FIM创新落地!创新大师软件让大脑走进"创新健身房"
AI虽强大,但存在同质化、文化单一及多样性下降等问题,难以真正驱动创新。而FIM(创新大师)软件基于TRIZ理论,如同“创新健身房”,通过系统化的工具和方法锻炼用户的创新思维。它引导用户识别矛盾、拓展跨领域思路、实现差异化创新,有效弥补AI短板。FIM不仅是解决问题的工具,更是培养创新人才的摇篮,帮助企业缩短研发周期、提升市场竞争力。结合AI的广度与FIM的深度,才能真正实现创新落地。
|
2月前
|
人工智能 小程序 算法
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
487 14
|
3月前
|
人工智能 数据可视化
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。
323 18
|
2月前
|
人工智能 编解码 测试技术
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
|
2月前
|
数据采集 人工智能 自然语言处理
代理IP与AI的碰撞:网络安全新防线解码
在数字化战争升级的背景下,代理IP与人工智能(AI)正重塑网络安全规则。代理IP作为“隐形斗篷”,提供身份伪装、流量清洗、数据加速和合规审计等功能;AI加持使其进化为动态路由优化、威胁狩猎和隐私保护的战略工具。两者协同作战,在智能风控、跨境电商、汽车安全测试等场景中展现巨大价值。尽管面临动态IP隐患、注入攻击风险和法律合规难题,但通过技术创新可有效应对。未来,认知安全融合、量子代理网络和数字孪生防御将引领技术趋势,为企业带来效率革命、安全进化和战略赋能。掌握这一技术共生关系,是赢得数字时代生存权的关键。
38 0
|
2月前
|
域名解析 人工智能 API
使用 Websoft9 面板部署 LobeChat,打造个人 AI 大脑
本书详细介绍了从服务器环境准备到LobeChat部署与维护的全过程。首先,指导用户选购云服务器并配置安全组和SSH登录;接着,通过Websoft9面板一键安装并初始化,支持域名解析。随后,重点讲解了LobeChat的部署方法,包括应用市场和手动部署,并深入探讨多模型接入及插件扩展。最后,提供了日常维护命令和常见问题解决方法,确保系统稳定运行。适合新手及进阶用户参考。
66 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等