AI语音正终结“耳聋工厂” 千万中国工人将受益

简介:

“这里吵不吵啊?”“啊?”

“我是问这里吵不吵?”“吵!我们都习惯了!

这是近日,浙江省金华某工业园探访中的一幕。

噪声,是很多工厂工人摆脱不掉的困扰,“职业性噪声聋”已成包括浙江省在内的全国第二大职业病。

近日,阿里巴巴机器智能技术实验室消息,其正研发在高工业噪声环境下的语音识别及传输技术,以后,众多车间工人将告别“通讯靠吼”的境况,简单的交流言语会转换成文字,让彼此心领神会。

3ac61d0f04597b7479a9b3d52fc7766eae3e94eb

阿里巴巴工程师正在调试AI语音识别系统

很多工厂车间 说话基本靠吼

厂房林立的浙江省金华某工业园内,12台编织机正轰鸣着织出白色编织袋布。

“分贝仪”显示,该车间噪声在“95分贝”上下。

根据《职业性噪声聋诊断标准》等相关标准,噪声大于等于85分贝便可认定为噪声作业环境,工人需有所防护。但在该车间,工人并未佩戴防护耳罩。

c13dbaba9d3076d28d07cb026a52105905f97e81

在97分贝环境中作业的编织厂工人

阿里巴巴AI语音工程师许先生介绍,很多中小型工厂车间的噪声都在90分贝以上。而工人很少佩戴防护器具。

在金华一家小型印刷厂,车间噪声接近90分贝。一位工人说,他每天工作10个小时左右,工厂接单多,他和同事须时刻交流、协同调适印刷机。“带上防护耳罩就听不见同事说话。

手机+语音终端 让防噪器具真正奏效

浙江省疾控中心4月25日公布职业病数据显示,近10年来,浙江省新发5924例职业病中,职业性噪声聋占29.21%。浙江省疾控中心环境与职业卫生所副所长张美辨表示,工人长期接触超85分贝噪声易患职业性噪声聋。

2018年1月,国家安全监管总局网站公布的2015、2016年全国职业病报告来看。职业性噪声聋已成“尘肺病”之后的第二大职业病。

c99746400f34a4638ec8297d10d7bd2e818f0847

在高噪声环境下,阿里巴巴工程师正在测试语音识别设备

要预防职业性噪声聋并不容易。

阿里巴巴AI语音工程师许先生表示,大多数中小制造企业没经验和能力考虑降噪。最现实的,还是给工人戴防护耳罩,但又不便于交流。

许工程师介绍,他们研究的语音交互技术,已实现在85分贝工业噪声下,将一米处正常音量语音转换为文字。

语音转换都在云端完成,只要有网络并配上类似智能音箱的语音终端,便可构建局域性的语音文字转换和传输系统。

“转换为文字的信息,可指定传输至手机等带显示屏设备。只要一部手机,一个语音终端,便可组建高噪声语音交互系统。” 许工程师说表示他和同事的语音测试仍在继续,“85分贝还是太安静,按照预期,要在95分贝噪音下识别语音。”


原文发布时间为:2018-05-2

本文作者:网商君

本文来自云栖社区合作伙伴“天下网商”,了解相关信息可以关注“天下网商”。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
人工智能 搜索推荐
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
232 2
|
9月前
|
人工智能 机器人 语音技术
ai智能语音机器人运营的核心
​  运营机器人核心关注的只有两个点,一个是机器人话术库的关键词是否充足,二是对录音的高要求。每一个话术,都把它当成一个重要的项目来做。比如做需求调研,学习客户的行业知识,了解他们这个行业打电话的语气语调。其它的东西,能拿出来运营的机器人产品,核心的东西都不会差到哪去。有关系统问题欢迎看博主名字一起技术交流。![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e1589ad7c9f1423bb24c7f5f6a2bcc42~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=814&h=232&s=
ai智能语音机器人运营的核心
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
按照固有的思维方式,如果想要语音克隆首先得有克隆对象具体的语言语音样本,换句话说,克隆对象必须说过某一种语言的话才行,但现在,coqui-ai TTS V2.0版本做到了,真正的跨语种无需训练的语音克隆技术。 coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型,该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外,还引入了对抗损失项,以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成,而无需在任何双语或平行示例上进行训练。
字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)
|
9月前
|
人工智能
阿里云语音AI这个appkey怎么找
阿里云语音AI这个appkey怎么找?
1240 1
|
11月前
|
存储 人工智能 搜索推荐
AI智能语音机器人的基本业务流程
先画个图,了解下AI语音机器人的基本业务流程。 上图是一个AI语音机器人的业务流程,简单来说就是首先要配置话术,就是告诉机器人在遇到问题该怎么回答,这个不同公司不同行业的差别比较大,所以一般每个客户都会配置其个性化的话术。 话术配置完成后,需要给账号配置线路,目的就是能够顺利的把电话打出去。 线路配完后,就是建立任务了,说白了就是导入电话号码,因为资源有限,不可能导入一批立即打完,所以需要以任务的形式分配给机器人,然后机器人逐个完成。值得一提的是,如果有多条线路,创建任务时建议提供线路选择功能,很多公司的业务不止一个城市,而大家又是比较习惯接听自己所在城市的电话,所以这个选择主
|
2月前
|
人工智能 自然语言处理 算法
GPT-4o:重塑AI语音对话的边界与机遇
最近技术圈又出了新的“爆炸”新闻,因为OpenAI再次掀起技术浪潮,发布了最新旗舰模型GPT-4o,通过官方的消息显示这款全新的模型凭借超高速的语音响应能力和多模态交互革新,不仅让AI语音对话的交互体验更加流畅自然,还以免费使用的形式,给用户和行业带来了前所未有的震撼。那么GPT-4o相比前代有哪些显著的技术提升?它的发布又为国内大模型行业带来了哪些机会呢?本文就来简单聊一聊,欢迎大家在评论区留言交流。
47 2
GPT-4o:重塑AI语音对话的边界与机遇
|
2天前
|
人工智能 前端开发 API
基于Web Speech API给AI语言模型加上语音功能,距离MOSS又近了一步
基于Web Speech API给AI语言模型加上语音功能,距离MOSS又近了一步
|
2月前
|
机器学习/深度学习 人工智能 语音技术
AI让失语者重新说话!纽约大学发布全新神经-语音解码器
【5月更文挑战第19天】纽约大学研发的神经-语音解码器,结合深度学习与语音合成,为失语者带来新希望。此脑机接口技术能将大脑神经信号转化为语音参数,再通过合成器转为可听语音。使用癫痫患者的数据进行训练,解码器已成功重现语音,尽管质量有待提升。该技术有望革新沟通方式,但也面临数据复杂性、隐私保护及社会接受度等挑战。[论文链接](https://www.nature.com/articles/s42256-024-00824-8)
52 5
|
20天前
|
机器学习/深度学习 人工智能 搜索推荐
推荐3个文本转语音AI工具
三款文本转语音工具各具特色,适用于不同的场景和需求。ELEVENLABS语音合成凭借其高质量的语音输出和先进的技术支持,适合对音质有较高要求的用户;TTSMAKER语音合成简单易用,功能丰富,适合普通用户日常使用;SPEECHIFY文本转语音则注重实用性和便捷性,特别适用于长时间阅读或学习场景。无论你是职场人士、学生还是语言学习者,都能在这些工具中找到适合自己的选择。【6月更文挑战第4天】
38 0
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
2024通义语音AI技术图景,大模型引领AI再进化
2024通义语音AI技术图景,大模型引领AI再进化