AI让失语者重新说话!纽约大学发布全新神经-语音解码器

简介: 【5月更文挑战第19天】纽约大学研发的神经-语音解码器,结合深度学习与语音合成,为失语者带来新希望。此脑机接口技术能将大脑神经信号转化为语音参数,再通过合成器转为可听语音。使用癫痫患者的数据进行训练,解码器已成功重现语音,尽管质量有待提升。该技术有望革新沟通方式,但也面临数据复杂性、隐私保护及社会接受度等挑战。[论文链接](https://www.nature.com/articles/s42256-024-00824-8)

在一项突破性的发展中,纽约大学的研究人员发布了一款全新神经-语音解码器,它有望为因神经缺陷而失去说话能力的个体重新赋予声音。这项创新技术,结合深度学习和语音合成,标志着脑机接口(BCI)研究的一个重大进步,为受言语丧失影响的个体带来了希望。

从神经信号中解码人类语音的挑战长期以来一直是一个艰巨的任务,受到神经数据稀缺、数据复杂性和高维度的阻碍。然而,由Adeen Flinker和Yao Wang领导的研究团队开发了一种新颖的框架,它以显著的效率和可重复性解决了这些挑战。

这一突破的核心是一个基于深度学习的ECoG(电皮层图)解码器,它能够将大脑皮层的神经信号转换为可解释的语音参数。这个解码器与一个可微分的语音合成器相辅相成,后者将这些参数转换为频谱图,有效地架起了神经活动和可听语音之间的桥梁。

为了促进ECoG解码器的训练,研究人员设计了一个伴随的语音到语音自编码器。这个自编码器由一个语音编码器和相同的语音合成器组成,生成参考语音参数,使得ECoG解码器能够通过模仿这些参数来学习如何解码神经信号。

在实际应用中,研究人员使用来自癫痫患者的ECoG数据,这些患者在进行癫痫监测时被植入了电极。通过这些数据,解码器学会了将神经信号转换为可理解的语音。在测试中,解码器成功地重现了患者的语音,尽管这些语音在质量上还有待提高,但这一成果无疑为未来的研究和应用奠定了坚实的基础。

这项技术的潜在应用是广泛的,它不仅可以为失语者提供一种新的沟通方式,还可以在语音障碍的诊断和治疗中发挥作用。此外,它还可能被用于其他形式的脑机接口,帮助残疾人士与外界交流。

然而,这项技术也面临着一些挑战和伦理问题。首先,神经信号的解码仍然是一个复杂的过程,需要大量的数据和计算资源。其次,确保患者的隐私和数据安全是至关重要的,因为神经数据包含了大量的个人信息。此外,这项技术的社会接受度也是一个需要考虑的因素,社会需要对这种新型的沟通方式有一定的理解和适应。

论文链接:https://www.nature.com/articles/s42256-024-00824-8

目录
相关文章
|
2月前
|
人工智能 自然语言处理 API
Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题
Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。
163 5
Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题
|
30天前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
103 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
28天前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
195 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
195 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
|
26天前
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
612 4
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
|
30天前
|
人工智能 JavaScript 前端开发
一段 JavaScript 代码,集成网站AI语音助手
根据本教程,只需通过白屏化的界面操作,即可快速构建一个专属的AI智能体。
|
2月前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
225 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
2月前
|
人工智能 Serverless 视频直播
活动实践 | AI智能体实时语音互动
AI智能体实时语音互动方案提供端到端的实时音频交互,用户通过终端SDK与云端AI智能体进行音频通话。AI智能体接收音频输入,依据预定义工作流处理并生成响应,通过ARTC网络推送结果。该方案支持灵活编排AI组件如语音转文字、大语言模型等,确保高可用、低延迟的通信体验。用户可轻松创建和管理智能体及实时工作流,实现高效对话,并可通过示例网站体验功能。
|
3月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
58 2
|
3月前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
961 1