AI赋能语音交互Link Voice,让物品懂人

简介: 2018云栖大会深圳峰会阿里云IoT物联网技术专场上,阿里云IOT事业部高级技术专家龙一民在深圳云栖大会给大家介绍了AI赋能语音交互Link Voice。从内容和智能家居生态角度阐述了Link Voice的广阔前景,着重从从前端硬件,数字信号处理,到云端数据处理详细分析了Link Voice的优势。

2018云栖大会深圳峰会阿里云IoT物联网技术专场上,阿里云IOT事业部高级技术专家龙一民在深圳云栖大会给大家介绍了AI赋能语音交互Link Voice。从内容和智能家居生态角度阐述了Link Voice的广阔前景,着重从从前端硬件,数字信号处理,到云端数据处理详细分析了Link Voice的优势。

数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!

直播视频回顾

以下为精彩视频内容整理:

云平台简介

目前市场主流的智能语音平台为阿里云、Google、Amazon和苹果公司。Link Voice云平台是阿里云研发的智能语音平台,旨在通过阿里云平台资源帮助更多公司及用户实现智能语音交互。

3441170560070c07545511452b5d2b0f61c2e6a2

我们把智能家居分为家居、家电、运动健康和汽车车载等四个场景,这些场景里面的设备都会具有语音交互能力。个人猜想扫地机器人未来除了语音交互能力之外还添加视觉采集能力,这样具备巡逻能力的设备可以帮用户观察家里房间安全、老人和儿童的位置安全等功能。同时运动健身方面智能耳机也是我们关注的一个设备,去年苹果发布了Earpods,阿里云也和侯氏联合在设计一款蓝牙耳机,在耳机里内置本地化处理、本地化唤醒等技术。去年我们也和新中心合作了车载蓝牙市场,之后发布了基于蓝牙耳机的解决方案,也是支持本地唤醒的。

0139110cb14286ebdc7985e67d7e2a5203960852

Link Voice平台有两大优势,一个是内容优势,另一个是智能家居生态优势。由上左图调研报告中可以看出,大家最感兴趣的云端内容其一是智能家居控制,其二是信息获取比如音乐、电台等内容。在AliOS Things上可以找到版权超过两千万的虾米音乐,还有喜马拉雅、蜻蜓FM、贝瓦儿歌等内容合作伙伴。在智能家居生态方面,现在已经拥有超过千万台设备在阿里云上运行。通过云端系统,不仅可以让设备控制设备本身,也可以让设备控制其他设备的操作。甚至可以告诉家里的冰箱,半小时之后打算出门,请出租车停在北门这样的指令,都可以帮助用户完成。

端模块介绍

e687a8f228e7fb0b5832e24ea1b4caf97b8f6600

语音产品从前端硬件,到数字信号处理,到云端数据处理,其实是一个多领域交叉融合的产品。所以Link Voice把每一类问题细分并解决处理,提供给大家一站式开发能力。由上图可以看到,Link Voice在硬件方面具备多项优点,可以兼容多个操作系统,声学信号处理方面具备声源定位、回声消除、噪音消除等特点,算法方面概括多项主流操作,并且依赖于阿里云平台各项资源,具有强大竞争力。

1ff8c80ece364a4e3fa6a185b22eac73318cb709

在整个语音行业里面,Link Voice实际上是提供了很多B2B、B2C的商业模式。有很多传统家具家电行业合作厂商,会把产品进行语音化改造,经过一站式开发和平台赋能之后,最后经过验收测试,推广到应用市场上。Link Voice支持厂家或者用户可以自定义语音唤醒词,更加满足多元的用户体验。

d712d8eaee8c8a24a037c2038cced34dd627fe98

在交互方式方面,大家可以看到最后的硬件设备分类。Push Talk就是设备上有一个按键,开始按同时识音开始,结束按识音结束。Tab Talk意思是设备上有按键,开始按同时识音开始,系统自动判别结束时间点。Far Field就是所谓的无接触式远场识音,就是通过唤醒词唤醒。目前这三种唤醒方式Link Voice都支持。

产品介入研发流程

下面着重和大家介绍,如何利用Link Voice做出一个属于自己的云单品。

70bbf8d55e5b006b53ca68ac3c65d198ea85f506

在操作系统AliOS Things上,会有一个WiFi的id,还有一个DSP本地声控或者本地神经网络的部分,主要是做本地化识音处理,以上构成了一个经典的设备模组模型。

0d7f13d87e2f99a64b48a1a5d3845fdaa3d7ac91

然后在麦克风阵列的数量上面,Link Voice也支持本地端麦克风阵列自定义。当然数量越多价格越高。

f63d770584ae89abc6e46d23aaf8eaa958b54f2d

以跑步机为例,如果客户自由一个智能化的单品希望借助云的能力。一般是先提供产品模型,了解到产品的模型,我们会帮助产品挑选核实的合作伙伴及类型。举个例子,如果不需要本地化的模组,就可以通过轻量方式连接云端;如果需要本地化处理,可以接入合作商家芯片做本地唤醒或者本地语音识别模组。之后安装麦克风,接下来开发者可以利用一站式开发平台开发适合自己的语音交互应用,我们所有的云端资源都是开放的。最后进行产品认证测试,Link Voice产品的声学验证测试包括基本功能测试集、常用指令识别率音响设备交互控制、误唤醒率、唤醒率等指标。利用消音室、半消音室、环境噪音等条件,从不同方位,从用户不同的声音音调、分贝数等方面,对产品做一个全方位的认证和测试,测试过后可以发布上线。

我们的宗旨就是希望借助阿里云平台的力量,和供应商、开发者一起为传统的物理世界里面的物,提供语音交互能力,希望能得到更多的支持和合作。

本文由云栖志愿小组王晓慧整理编辑

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
0
0
0
184
分享
相关文章
AI 赋能混合云运维:告别手工操作,迈向智能自愈!
AI 赋能混合云运维:告别手工操作,迈向智能自愈!
127 85
Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位
介绍Collaborative Gym,一个专注于人机协作的框架,支持异步交互和多种任务环境。
48 14
Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
通义灵码 2.0 是阿里云基于通义大模型推出的先进开发工具,具备代码智能生成、研发问答、多文件修改和自主执行等核心功能。本文通过亲身体验,展示了其在新功能开发、跨语言编程和单元测试生成等方面的实际效果,并对比了 1.0 版本的改进。结果显示,2.0 版在代码生成完整度、跨语言支持和单元测试自动化上有显著提升,极大提高了开发效率,但仍需进一步优化安全性和个性化风格。推荐指数:⭐⭐⭐⭐⭐。
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
**通义灵码 2.0 体验报告:AI 赋能智能研发的新范式** 本文详细评测了阿里云推出的通义灵码 2.0,基于通义大模型,提供代码智能生成、研发问答、多文件修改等核心能力。通过亲身体验,探讨其在新功能开发、跨语言编程、单元测试生成等场景的实际效果,并对比1.0版本的改进点。结果显示,2.0版本在代码生成完整性、自动化程度及跨语言支持方面有显著提升,但也存在安全性优化和个性化风格调整的空间。推荐指数:⭐⭐⭐⭐⭐。 (239字)
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
FoloUp 是一个开源的 AI 语音面试平台,能够根据职位描述自动生成定制化的面试问题,并与候选人进行自然对话式的语音面试,帮助企业高效招聘。
46 9
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
167 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
220 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
212 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
科技赋能妇产医疗,钉钉联合打造小红 AI 患者助理
复旦大学附属妇产科医院与钉钉共同打造的 AI 助理“小红”上线。“小红”孵化于钉钉智能化底座,通过学习复旦大学附属妇产科医院的 400 多篇科普知识,涵盖妇科疾病宣教、专业产科指导、女性健康保健等问题,能够为患者提供妇科疾病、产科指导、女性健康保健等知识的专业解答。
60 10
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
703 4
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等