AI让失语者重新说话!纽约大学发布全新神经-语音解码器

简介: 【5月更文挑战第19天】纽约大学研发的神经-语音解码器,结合深度学习与语音合成,为失语者带来新希望。此脑机接口技术能将大脑神经信号转化为语音参数,再通过合成器转为可听语音。使用癫痫患者的数据进行训练,解码器已成功重现语音,尽管质量有待提升。该技术有望革新沟通方式,但也面临数据复杂性、隐私保护及社会接受度等挑战。[论文链接](https://www.nature.com/articles/s42256-024-00824-8)

在一项突破性的发展中,纽约大学的研究人员发布了一款全新神经-语音解码器,它有望为因神经缺陷而失去说话能力的个体重新赋予声音。这项创新技术,结合深度学习和语音合成,标志着脑机接口(BCI)研究的一个重大进步,为受言语丧失影响的个体带来了希望。

从神经信号中解码人类语音的挑战长期以来一直是一个艰巨的任务,受到神经数据稀缺、数据复杂性和高维度的阻碍。然而,由Adeen Flinker和Yao Wang领导的研究团队开发了一种新颖的框架,它以显著的效率和可重复性解决了这些挑战。

这一突破的核心是一个基于深度学习的ECoG(电皮层图)解码器,它能够将大脑皮层的神经信号转换为可解释的语音参数。这个解码器与一个可微分的语音合成器相辅相成,后者将这些参数转换为频谱图,有效地架起了神经活动和可听语音之间的桥梁。

为了促进ECoG解码器的训练,研究人员设计了一个伴随的语音到语音自编码器。这个自编码器由一个语音编码器和相同的语音合成器组成,生成参考语音参数,使得ECoG解码器能够通过模仿这些参数来学习如何解码神经信号。

在实际应用中,研究人员使用来自癫痫患者的ECoG数据,这些患者在进行癫痫监测时被植入了电极。通过这些数据,解码器学会了将神经信号转换为可理解的语音。在测试中,解码器成功地重现了患者的语音,尽管这些语音在质量上还有待提高,但这一成果无疑为未来的研究和应用奠定了坚实的基础。

这项技术的潜在应用是广泛的,它不仅可以为失语者提供一种新的沟通方式,还可以在语音障碍的诊断和治疗中发挥作用。此外,它还可能被用于其他形式的脑机接口,帮助残疾人士与外界交流。

然而,这项技术也面临着一些挑战和伦理问题。首先,神经信号的解码仍然是一个复杂的过程,需要大量的数据和计算资源。其次,确保患者的隐私和数据安全是至关重要的,因为神经数据包含了大量的个人信息。此外,这项技术的社会接受度也是一个需要考虑的因素,社会需要对这种新型的沟通方式有一定的理解和适应。

论文链接:https://www.nature.com/articles/s42256-024-00824-8

目录
相关文章
|
1月前
|
人工智能 搜索推荐
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
221 2
|
10天前
|
机器学习/深度学习 人工智能 数据挖掘
LREC 2024:汪汪to Vector!密歇根博士生用AI解码狗的声音
【6月更文挑战第18天】在LREC 2024会议上,密歇根大学博士生展示了如何用AI解码狗叫声。研究团队应用Wav2Vec2模型,原本用于人类语音识别,来分类狗的叫声,包括情绪、品种、性别和上下文。实验显示,模型准确度提升超20%,但研究尚局限于特定品种,且依赖标注数据。[链接:https://arxiv.org/pdf/2404.18739](https://arxiv.org/pdf/2404.18739)
29 1
|
1月前
|
人工智能 自然语言处理 算法
GPT-4o:重塑AI语音对话的边界与机遇
最近技术圈又出了新的“爆炸”新闻,因为OpenAI再次掀起技术浪潮,发布了最新旗舰模型GPT-4o,通过官方的消息显示这款全新的模型凭借超高速的语音响应能力和多模态交互革新,不仅让AI语音对话的交互体验更加流畅自然,还以免费使用的形式,给用户和行业带来了前所未有的震撼。那么GPT-4o相比前代有哪些显著的技术提升?它的发布又为国内大模型行业带来了哪些机会呢?本文就来简单聊一聊,欢迎大家在评论区留言交流。
45 2
GPT-4o:重塑AI语音对话的边界与机遇
|
14天前
|
机器学习/深度学习 人工智能 搜索推荐
推荐3个文本转语音AI工具
三款文本转语音工具各具特色,适用于不同的场景和需求。ELEVENLABS语音合成凭借其高质量的语音输出和先进的技术支持,适合对音质有较高要求的用户;TTSMAKER语音合成简单易用,功能丰富,适合普通用户日常使用;SPEECHIFY文本转语音则注重实用性和便捷性,特别适用于长时间阅读或学习场景。无论你是职场人士、学生还是语言学习者,都能在这些工具中找到适合自己的选择。【6月更文挑战第4天】
32 0
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
2024通义语音AI技术图景,大模型引领AI再进化
2024通义语音AI技术图景,大模型引领AI再进化
|
1月前
|
人工智能 自然语言处理 安全
AI语音克隆技术企业携手智能硬件制造商革新用户交互体验——ElevenLabs赋能rabbit r1设备实现自然流畅的人机对话
【4月更文挑战第1天】ElevenLabs与rabbit合作,将AI语音克隆技术应用于r1设备,实现自然人机对话。r1借助ElevenLabs的低延迟语音回应技术和rabbit的LAM,提供真实流畅的交互体验。双方旨在创建动态副驾驶般的用户体验,同时,这也预示着智能家居和个人助理产品的未来趋势,即更加人性化和智能化。但科技进步也伴随着隐私和过度依赖的问题,企业需兼顾用户体验与安全。
41 1
AI语音克隆技术企业携手智能硬件制造商革新用户交互体验——ElevenLabs赋能rabbit r1设备实现自然流畅的人机对话
|
1月前
|
机器学习/深度学习 人工智能 达摩院
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
DDColor:AI图像着色工具,优秀的黑白图像上色模型,支持双解码器!
235 3
|
1月前
|
人工智能 缓存 自然语言处理
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
460 1
|
人工智能 达摩院 算法
达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验
9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。
1828 0
达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
影中的ai技术
【6月更文挑战第27天】电影中的ai技术
186 65

热门文章

最新文章