AI语音正终结“耳聋工厂” 千万中国工人将受益

简介:

“这里吵不吵啊?”“啊?”

“我是问这里吵不吵?”“吵!我们都习惯了!

这是近日,浙江省金华某工业园探访中的一幕。

噪声,是很多工厂工人摆脱不掉的困扰,“职业性噪声聋”已成包括浙江省在内的全国第二大职业病。

近日,阿里巴巴机器智能技术实验室消息,其正研发在高工业噪声环境下的语音识别及传输技术,以后,众多车间工人将告别“通讯靠吼”的境况,简单的交流言语会转换成文字,让彼此心领神会。

3ac61d0f04597b7479a9b3d52fc7766eae3e94eb

阿里巴巴工程师正在调试AI语音识别系统

很多工厂车间 说话基本靠吼

厂房林立的浙江省金华某工业园内,12台编织机正轰鸣着织出白色编织袋布。

“分贝仪”显示,该车间噪声在“95分贝”上下。

根据《职业性噪声聋诊断标准》等相关标准,噪声大于等于85分贝便可认定为噪声作业环境,工人需有所防护。但在该车间,工人并未佩戴防护耳罩。

c13dbaba9d3076d28d07cb026a52105905f97e81

在97分贝环境中作业的编织厂工人

阿里巴巴AI语音工程师许先生介绍,很多中小型工厂车间的噪声都在90分贝以上。而工人很少佩戴防护器具。

在金华一家小型印刷厂,车间噪声接近90分贝。一位工人说,他每天工作10个小时左右,工厂接单多,他和同事须时刻交流、协同调适印刷机。“带上防护耳罩就听不见同事说话。

手机+语音终端 让防噪器具真正奏效

浙江省疾控中心4月25日公布职业病数据显示,近10年来,浙江省新发5924例职业病中,职业性噪声聋占29.21%。浙江省疾控中心环境与职业卫生所副所长张美辨表示,工人长期接触超85分贝噪声易患职业性噪声聋。

2018年1月,国家安全监管总局网站公布的2015、2016年全国职业病报告来看。职业性噪声聋已成“尘肺病”之后的第二大职业病。

c99746400f34a4638ec8297d10d7bd2e818f0847

在高噪声环境下,阿里巴巴工程师正在测试语音识别设备

要预防职业性噪声聋并不容易。

阿里巴巴AI语音工程师许先生表示,大多数中小制造企业没经验和能力考虑降噪。最现实的,还是给工人戴防护耳罩,但又不便于交流。

许工程师介绍,他们研究的语音交互技术,已实现在85分贝工业噪声下,将一米处正常音量语音转换为文字。

语音转换都在云端完成,只要有网络并配上类似智能音箱的语音终端,便可构建局域性的语音文字转换和传输系统。

“转换为文字的信息,可指定传输至手机等带显示屏设备。只要一部手机,一个语音终端,便可组建高噪声语音交互系统。” 许工程师说表示他和同事的语音测试仍在继续,“85分贝还是太安静,按照预期,要在95分贝噪音下识别语音。”


原文发布时间为:2018-05-2

本文作者:网商君

本文来自云栖社区合作伙伴“天下网商”,了解相关信息可以关注“天下网商”。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
1380 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
11月前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
1182 32
|
11月前
|
人工智能 自然语言处理 安全
从工厂车间到海上油田,在产业实践里探寻中国AI落地的锚点
在新一轮AI浪潮中,“技术为先”与“产业为先”的争论不断。前者追求通用人工智能,后者强调解决实际问题。中国拥有全工业门类、庞大金融消费人群和复杂政务体系,适合“产业为先”路线。政企单位成为AI落地的“产业链组织者”,通过数据治理、算力支持及行业实践推动转型。华为云Stack等平台助力大型政企解决安全可控、数据流通、模型优化和研发效率等问题,提供定制化解决方案。通过云计算技术锚点,构建可持续竞争壁垒,推动数智化转型,实现产业升级与创新发展。
354 22
|
10月前
|
人工智能 Android开发 iOS开发
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
Shortcuts for Android(SFA)是一款安卓自动化工具,支持语音创建快捷指令,实现听歌、导航、发消息等操作。操作简单,提升效率,快来体验语音控制的便捷!
1254 0
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
|
10月前
|
人工智能 自然语言处理 语音技术
深度解析:AI语音客服系统如何重塑客户服务体验与主流解决方案探析
在数字化浪潮下,AI语音客服凭借高效、便捷、24小时在线的优势,成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案,如阿里云通义晓蜜、合力亿捷等,助力企业智能化升级。
638 1
|
11月前
|
人工智能 移动开发 开发工具
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
随心记是一个由 AI 生成的网页备忘录,它支持语音录入(可下载)、图文视频记录。最重要的是,它支持离线使用,所有数据都储存在浏览器中,不依赖后端,刷新页面数据也不会丢失!
410 0
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
|
12月前
|
人工智能 搜索推荐 程序员
程序员圈爆火,狂揽2.4K星!1秒内AI语音双向对话,支持个性化发音和多端适配,颠覆你的交互想象!
RealtimeVoiceChat是一款基于现代Web技术的开源实时语音对话工具,无需下载任何软件,打开浏览器即可与AI实时语音互动。其核心亮点包括零安装体验、超低延迟、高度可定制化以及跨平台兼容等特性。通过Web Speech API实现毫秒级语音合成,支持多参数精细控制(如音色、语速、音调等),并提供隐私安全保障。项目适用于无障碍辅助、语言学习、智能客服及内容创作等多个场景。开发者可快速集成GPT/Claude等大模型,扩展为企业级应用。此外,随着Web Speech API普及率提升,该项目有望推动语音交互在教育、智能家居等领域的发展
1517 4
|
10月前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
|
人工智能 JavaScript 语音技术
HarmonyOS NEXT AI基础语音服务-语音输入
本案例展示了一个基于AI语音服务的实时语音转文字功能,通过麦克风采集音频并转换为文本。主要步骤包括:申请麦克风权限、初始化语音识别引擎、设置识别回调、配置音频参数及实现UI交互(长按按钮控制录音启停)。代码使用TypeScript编写,涵盖权限管理、引擎生命周期、异常处理等核心环节,确保功能稳定运行。适用于需要实时语音转写的场景,如会议记录、语音输入等。
HarmonyOS NEXT AI基础语音服务-语音输入
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
2062 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳