产品推荐 | 理想的语音大脑是什么样?来看看华镇VB590标准核心板

简介: 日前,华镇语音大脑VB590标准核心板已在OCC上线。该方案针对语音芯片行业应用场景的碎片化、推广周期长,应用场景复杂,缺乏统一语音标准等痛点,推出语音大脑VB590标准核心板,可广泛应用在智能家居,智能卫浴,智能照明,智能机电,智能玩具等场景领域。

日前,华镇语音大脑VB590标准核心板已在OCC上线。该方案针对语音芯片行业应用场景的碎片化、推广周期长,应用场景复杂,缺乏统一语音标准等痛点,推出语音大脑VB590标准核心板,可广泛应用在智能家居,智能卫浴,智能照明,智能机电,智能玩具等场景领域。

方案介绍

VB590标准核心板,采用高灵敏度模拟麦克风录音,利用稳态、动态噪音过滤算法,动态调整录音音量,录音降噪后通过语音增强,将高信噪比的语料数据送到识别引擎去做识别,保证了不同距离识别的高精准度和抗噪能力,适合远距离或嘈杂环境下真实复杂场景下的语音识别、语音控制。系统无需WiFi、无需APP并识别灵敏,内置VB590AI语音识别芯片,用于极速语音操控能力,用户可以通过语音实现和设备的交互控制,带来简单快捷的使用体验。

针对离线语音识别客制化程度高的特点,VB590方案实现SDK完全开放,自定义语音识别指令集,开发者可以连接华镇服务器训练对应的语音模型。训练方法简便,通过文本编辑的方式,就可以实现包括唤醒词在内的针对不同客户的语音模型。

四大优势让家庭控制更加智能化

【语音识别AI算法】基于第二代TDNN-LFMMI模型,识别率较第一代DNN-HMM 模型有巨大优势,提高6%以上。

【多语种声学模型】具备中文普通话、北美英语、英式英语的识别能力,能够覆盖绝大多数带方言的普通话识别场景。中文模型包括了近2万小时,英文模型包括了近1万小时。

【前端声学处理算法】支持语音增强、语音降噪、实现单麦远场识别。

【客制化服务】SDK完全开放,提供自定义识别指令集, 开发者可以连接华镇服务器训练对应的语音模型。

94C90BB1-3C04-4b9a-8E1B-949BCABC82CC.png

芯片方面

VB590采用了平头哥高性能32位处理器XT804。芯片上运行语音识别算法、语音降噪算法、语音增强算法实现了远场离线语音识别。芯片内置语音识别神经网络计算所需要的DSP指令增强单元以及MCA算法硬件加速器,AI算法与芯片架构深度融合,算力和效能之间取得非常好的平衡。

VB590芯片内置集成了128KB SRAM、2MB FlASH、ADC、DAC,外围BOM极其简单。芯片支持中文、英文离线语音指令识别、远场识别、强噪音下识别,完全是高性价比离线识别芯片同时还支持二次开发,开发者可以自定义语音识别指令,从研发到量产,提供全流程服务。

此款产品已在OCC上线,更多产品详情可扫描下方二维码查看。

C9576F8F-26C0-49b1-AF2E-EC652899C7F9.png

公司介绍

上海华镇电子科技有限公司成立于2006年,拥有近百项专利及软件著作权。是国家高新技术企业,软件企业并连续多年获得上海市双创大赛奖项,华镇拥有多项人工智能核心算法,如:声学前端的麦克风阵列(SMA)、远声降噪(NS)、回声抑制(AEC)、人工智能深度神经网络语音识别(KWS、ASR)、声纹识别(VPR)等核心算法,有着丰富的研究及项目落地的经验。华镇聚合核心算法能力推出全方位赋能百业的人工智能开放平台——语音大脑VoiceBrain开放平台,作为软硬件全链条能力的企业,华镇可以为客户提供一站式Turnkey服务,让我们的合作伙伴用最小的成本,简单、便捷的用上AI系统。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
人工智能 运维 安全
GPT-5.2 Codex来了:能独立跑7+小时的AI程序员,老金手把手教你玩转
OpenAI发布GPT-5.2 Codex,支持异步自主编程,7小时持续任务不断线。采用上下文压缩技术,胜任复杂重构与安全审计。对比Claude Code的同步交互,Codex更像远程员工,适合甩手任务。Plus用户可免费体验,API性价比高,配合本地工具高效开发。
GPT-5.2 Codex来了:能独立跑7+小时的AI程序员,老金手把手教你玩转
|
4月前
|
人工智能 监控 数据挖掘
AiPy发布第五期大模型适配度测评报告:Claude、GLM、豆包位居前三,美团LongCat落后
10月13日,AiPy发布《大模型适配度测评第五期报告》,覆盖20款国内外主流大模型,聚焦数据分析、编程开发、UI设计等十大真实场景。报告从成功率、资源消耗、速度等多维度综合评估,Claude-Sonnet-4以90%成功率位居榜首,GLM-4.5、Doubao-Seed-1.6等国产模型表现亮眼,展现中国AI技术进步。测评发现代码质量、中文支持、任务规划仍是主要挑战,为用户选型与模型优化提供重要参考。
|
自然语言处理 关系型数据库 MySQL
如何在mysql数据库里进行文本的相似度排序?
【8月更文挑战第28天】如何在mysql数据库里进行文本的相似度排序?
762 62
|
存储 缓存 前端开发
Django 后端架构开发:存储层调优策略解析
Django 后端架构开发:存储层调优策略解析
374 2
|
7月前
|
机器学习/深度学习 人工智能 编解码
如何用AI快速生成Logo?如我对比了7个AI Logo生成器,简单、高效、专业
在品牌设计中,Logo 是核心元素。传统设计方式成本高、耗时长,而 AI Logo 工具如 LogoMaker、AI Logo Creator、燕雀光年AILogo生成器等可快速生成多样设计方案,支持个性化定制与多格式输出,极大提升了效率,降低了门槛,适合初创企业及个人品牌高效打造独特标识。
951 0
|
缓存 JSON 生物认证
harmony-utils之CacheUtil,缓存工具类
CacheUtil 是 harmony-utils 工具库中的缓存操作类,提供 has、put、get、remove、isEmpty、clear 等方法,方便开发者高效管理应用缓存数据,提升开发效率。
196 0
|
12月前
|
存储 人工智能 搜索推荐
HealthGPT:你的AI医疗助手上线了:支持X光到病理切片,诊断建议+报告生成全自动
HealthGPT 是浙江大学联合阿里巴巴等机构开发的先进医学视觉语言模型,具备医学图像分析、诊断辅助和个性化治疗方案建议等功能。
1475 5
HealthGPT:你的AI医疗助手上线了:支持X光到病理切片,诊断建议+报告生成全自动
|
人工智能 API C#
使用Microsoft.Extensions.AI简化.NET中的AI集成
使用Microsoft.Extensions.AI简化.NET中的AI集成
296 5
使用Microsoft.Extensions.AI简化.NET中的AI集成
|
存储 弹性计算 运维
快速部署 K3s 社区版
K3s 是轻量级的 Kubernetes。K3s 易于安装,仅需要 Kubernetes 内存的一半,所有组件都在一个小于 100 MB 的二进制文件中。K3s 是一个完全兼容的 Kubernetes 发行版。本文向您介绍如何通过计算巢快速部署K3s社区版。
快速部署 K3s 社区版
|
计算机视觉
vs2019_qt6.2.4_dcmtk3.6.7_vtk9.2.2_itk5.3_opencv4.6.0编译记录
这篇文章记录了使用VS2019编译Qt6.2.4、DCMTK3.6.7、VTK9.2.2、ITK5.3和OpenCV4.6.0的过程,包括下载和编译步骤,并提供了遇到编译错误时的解决方案和参考链接。
446 0
vs2019_qt6.2.4_dcmtk3.6.7_vtk9.2.2_itk5.3_opencv4.6.0编译记录