AI赋能语音交互Link Voice,让物品懂人

简介: 2018云栖大会深圳峰会阿里云IoT物联网技术专场上,阿里云IOT事业部高级技术专家龙一民在深圳云栖大会给大家介绍了AI赋能语音交互Link Voice。从内容和智能家居生态角度阐述了Link Voice的广阔前景,着重从从前端硬件,数字信号处理,到云端数据处理详细分析了Link Voice的优势。

2018云栖大会深圳峰会阿里云IoT物联网技术专场上,阿里云IOT事业部高级技术专家龙一民在深圳云栖大会给大家介绍了AI赋能语音交互Link Voice。从内容和智能家居生态角度阐述了Link Voice的广阔前景,着重从从前端硬件,数字信号处理,到云端数据处理详细分析了Link Voice的优势。

数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!

直播视频回顾

以下为精彩视频内容整理:

云平台简介

目前市场主流的智能语音平台为阿里云、Google、Amazon和苹果公司。Link Voice云平台是阿里云研发的智能语音平台,旨在通过阿里云平台资源帮助更多公司及用户实现智能语音交互。

3441170560070c07545511452b5d2b0f61c2e6a2

我们把智能家居分为家居、家电、运动健康和汽车车载等四个场景,这些场景里面的设备都会具有语音交互能力。个人猜想扫地机器人未来除了语音交互能力之外还添加视觉采集能力,这样具备巡逻能力的设备可以帮用户观察家里房间安全、老人和儿童的位置安全等功能。同时运动健身方面智能耳机也是我们关注的一个设备,去年苹果发布了Earpods,阿里云也和侯氏联合在设计一款蓝牙耳机,在耳机里内置本地化处理、本地化唤醒等技术。去年我们也和新中心合作了车载蓝牙市场,之后发布了基于蓝牙耳机的解决方案,也是支持本地唤醒的。

0139110cb14286ebdc7985e67d7e2a5203960852

Link Voice平台有两大优势,一个是内容优势,另一个是智能家居生态优势。由上左图调研报告中可以看出,大家最感兴趣的云端内容其一是智能家居控制,其二是信息获取比如音乐、电台等内容。在AliOS Things上可以找到版权超过两千万的虾米音乐,还有喜马拉雅、蜻蜓FM、贝瓦儿歌等内容合作伙伴。在智能家居生态方面,现在已经拥有超过千万台设备在阿里云上运行。通过云端系统,不仅可以让设备控制设备本身,也可以让设备控制其他设备的操作。甚至可以告诉家里的冰箱,半小时之后打算出门,请出租车停在北门这样的指令,都可以帮助用户完成。

端模块介绍

e687a8f228e7fb0b5832e24ea1b4caf97b8f6600

语音产品从前端硬件,到数字信号处理,到云端数据处理,其实是一个多领域交叉融合的产品。所以Link Voice把每一类问题细分并解决处理,提供给大家一站式开发能力。由上图可以看到,Link Voice在硬件方面具备多项优点,可以兼容多个操作系统,声学信号处理方面具备声源定位、回声消除、噪音消除等特点,算法方面概括多项主流操作,并且依赖于阿里云平台各项资源,具有强大竞争力。

1ff8c80ece364a4e3fa6a185b22eac73318cb709

在整个语音行业里面,Link Voice实际上是提供了很多B2B、B2C的商业模式。有很多传统家具家电行业合作厂商,会把产品进行语音化改造,经过一站式开发和平台赋能之后,最后经过验收测试,推广到应用市场上。Link Voice支持厂家或者用户可以自定义语音唤醒词,更加满足多元的用户体验。

d712d8eaee8c8a24a037c2038cced34dd627fe98

在交互方式方面,大家可以看到最后的硬件设备分类。Push Talk就是设备上有一个按键,开始按同时识音开始,结束按识音结束。Tab Talk意思是设备上有按键,开始按同时识音开始,系统自动判别结束时间点。Far Field就是所谓的无接触式远场识音,就是通过唤醒词唤醒。目前这三种唤醒方式Link Voice都支持。

产品介入研发流程

下面着重和大家介绍,如何利用Link Voice做出一个属于自己的云单品。

70bbf8d55e5b006b53ca68ac3c65d198ea85f506

在操作系统AliOS Things上,会有一个WiFi的id,还有一个DSP本地声控或者本地神经网络的部分,主要是做本地化识音处理,以上构成了一个经典的设备模组模型。

0d7f13d87e2f99a64b48a1a5d3845fdaa3d7ac91

然后在麦克风阵列的数量上面,Link Voice也支持本地端麦克风阵列自定义。当然数量越多价格越高。

f63d770584ae89abc6e46d23aaf8eaa958b54f2d

以跑步机为例,如果客户自由一个智能化的单品希望借助云的能力。一般是先提供产品模型,了解到产品的模型,我们会帮助产品挑选核实的合作伙伴及类型。举个例子,如果不需要本地化的模组,就可以通过轻量方式连接云端;如果需要本地化处理,可以接入合作商家芯片做本地唤醒或者本地语音识别模组。之后安装麦克风,接下来开发者可以利用一站式开发平台开发适合自己的语音交互应用,我们所有的云端资源都是开放的。最后进行产品认证测试,Link Voice产品的声学验证测试包括基本功能测试集、常用指令识别率音响设备交互控制、误唤醒率、唤醒率等指标。利用消音室、半消音室、环境噪音等条件,从不同方位,从用户不同的声音音调、分贝数等方面,对产品做一个全方位的认证和测试,测试过后可以发布上线。

我们的宗旨就是希望借助阿里云平台的力量,和供应商、开发者一起为传统的物理世界里面的物,提供语音交互能力,希望能得到更多的支持和合作。

本文由云栖志愿小组王晓慧整理编辑

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
6月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
463 1
|
8月前
|
人工智能 安全 网络安全
2025攻防演习回顾,AI赋能下的网络安全新格局
网络安全实战攻防演习历经9年发展,已成为检验安全体系、洞察威胁趋势的重要手段。攻击呈现实战化、体系化特征,APT、0day、勒索攻击等手段升级,AI、大数据等新技术带来新风险。攻击入口多元化、工具智能化、API成重点目标,“AI+人工”协同攻击加剧威胁。面对挑战,企业需构建纵深防御体系,从被动防御转向主动对抗。瑞数信息通过动态安全技术与AI融合,实现0day防护、漏扫干扰、勒索应急等能力,打造WAAP超融合平台,助力关键基础设施构建智能、协同、前瞻的主动防御体系。
703 1
|
7月前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
752 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型:理解与构建下一代AI交互
大语言模型:理解与构建下一代AI交互
335 99
|
6月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
434 7
|
7月前
|
机器学习/深度学习 人工智能 编解码
古籍版面分析新SOTA:HisDoc-DETR如何助力AI赋能古籍数字化难题
HisDoc-DETR是面向历史文献版面分析的创新模型,融合语义学习与多尺度特征融合,有效应对古籍中复杂布局、稀疏文字与破损模糊等挑战,实现高精度元素识别与结构解析,推动文化遗产数字化与学术研究发展。
|
7月前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
7月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
836 1
|
人工智能 Cloud Native 机器人
未来数据观丨中企出海,AI+ 云赋能
依托云计算和 AI 构建数字生态,正成为中国企业出海和全球化战略的必然路径和选择。
未来数据观丨中企出海,AI+ 云赋能