AI赋能语音交互Link Voice,让物品懂人

简介: 2018云栖大会深圳峰会阿里云IoT物联网技术专场上,阿里云IOT事业部高级技术专家龙一民在深圳云栖大会给大家介绍了AI赋能语音交互Link Voice。从内容和智能家居生态角度阐述了Link Voice的广阔前景,着重从从前端硬件,数字信号处理,到云端数据处理详细分析了Link Voice的优势。

2018云栖大会深圳峰会阿里云IoT物联网技术专场上,阿里云IOT事业部高级技术专家龙一民在深圳云栖大会给大家介绍了AI赋能语音交互Link Voice。从内容和智能家居生态角度阐述了Link Voice的广阔前景,着重从从前端硬件,数字信号处理,到云端数据处理详细分析了Link Voice的优势。

数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!

直播视频回顾

以下为精彩视频内容整理:

云平台简介

目前市场主流的智能语音平台为阿里云、Google、Amazon和苹果公司。Link Voice云平台是阿里云研发的智能语音平台,旨在通过阿里云平台资源帮助更多公司及用户实现智能语音交互。

3441170560070c07545511452b5d2b0f61c2e6a2

我们把智能家居分为家居、家电、运动健康和汽车车载等四个场景,这些场景里面的设备都会具有语音交互能力。个人猜想扫地机器人未来除了语音交互能力之外还添加视觉采集能力,这样具备巡逻能力的设备可以帮用户观察家里房间安全、老人和儿童的位置安全等功能。同时运动健身方面智能耳机也是我们关注的一个设备,去年苹果发布了Earpods,阿里云也和侯氏联合在设计一款蓝牙耳机,在耳机里内置本地化处理、本地化唤醒等技术。去年我们也和新中心合作了车载蓝牙市场,之后发布了基于蓝牙耳机的解决方案,也是支持本地唤醒的。

0139110cb14286ebdc7985e67d7e2a5203960852

Link Voice平台有两大优势,一个是内容优势,另一个是智能家居生态优势。由上左图调研报告中可以看出,大家最感兴趣的云端内容其一是智能家居控制,其二是信息获取比如音乐、电台等内容。在AliOS Things上可以找到版权超过两千万的虾米音乐,还有喜马拉雅、蜻蜓FM、贝瓦儿歌等内容合作伙伴。在智能家居生态方面,现在已经拥有超过千万台设备在阿里云上运行。通过云端系统,不仅可以让设备控制设备本身,也可以让设备控制其他设备的操作。甚至可以告诉家里的冰箱,半小时之后打算出门,请出租车停在北门这样的指令,都可以帮助用户完成。

端模块介绍

e687a8f228e7fb0b5832e24ea1b4caf97b8f6600

语音产品从前端硬件,到数字信号处理,到云端数据处理,其实是一个多领域交叉融合的产品。所以Link Voice把每一类问题细分并解决处理,提供给大家一站式开发能力。由上图可以看到,Link Voice在硬件方面具备多项优点,可以兼容多个操作系统,声学信号处理方面具备声源定位、回声消除、噪音消除等特点,算法方面概括多项主流操作,并且依赖于阿里云平台各项资源,具有强大竞争力。

1ff8c80ece364a4e3fa6a185b22eac73318cb709

在整个语音行业里面,Link Voice实际上是提供了很多B2B、B2C的商业模式。有很多传统家具家电行业合作厂商,会把产品进行语音化改造,经过一站式开发和平台赋能之后,最后经过验收测试,推广到应用市场上。Link Voice支持厂家或者用户可以自定义语音唤醒词,更加满足多元的用户体验。

d712d8eaee8c8a24a037c2038cced34dd627fe98

在交互方式方面,大家可以看到最后的硬件设备分类。Push Talk就是设备上有一个按键,开始按同时识音开始,结束按识音结束。Tab Talk意思是设备上有按键,开始按同时识音开始,系统自动判别结束时间点。Far Field就是所谓的无接触式远场识音,就是通过唤醒词唤醒。目前这三种唤醒方式Link Voice都支持。

产品介入研发流程

下面着重和大家介绍,如何利用Link Voice做出一个属于自己的云单品。

70bbf8d55e5b006b53ca68ac3c65d198ea85f506

在操作系统AliOS Things上,会有一个WiFi的id,还有一个DSP本地声控或者本地神经网络的部分,主要是做本地化识音处理,以上构成了一个经典的设备模组模型。

0d7f13d87e2f99a64b48a1a5d3845fdaa3d7ac91

然后在麦克风阵列的数量上面,Link Voice也支持本地端麦克风阵列自定义。当然数量越多价格越高。

f63d770584ae89abc6e46d23aaf8eaa958b54f2d

以跑步机为例,如果客户自由一个智能化的单品希望借助云的能力。一般是先提供产品模型,了解到产品的模型,我们会帮助产品挑选核实的合作伙伴及类型。举个例子,如果不需要本地化的模组,就可以通过轻量方式连接云端;如果需要本地化处理,可以接入合作商家芯片做本地唤醒或者本地语音识别模组。之后安装麦克风,接下来开发者可以利用一站式开发平台开发适合自己的语音交互应用,我们所有的云端资源都是开放的。最后进行产品认证测试,Link Voice产品的声学验证测试包括基本功能测试集、常用指令识别率音响设备交互控制、误唤醒率、唤醒率等指标。利用消音室、半消音室、环境噪音等条件,从不同方位,从用户不同的声音音调、分贝数等方面,对产品做一个全方位的认证和测试,测试过后可以发布上线。

我们的宗旨就是希望借助阿里云平台的力量,和供应商、开发者一起为传统的物理世界里面的物,提供语音交互能力,希望能得到更多的支持和合作。

本文由云栖志愿小组王晓慧整理编辑

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
5天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
67 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
4天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
30 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
6天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
13天前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
67 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
18天前
|
存储 人工智能 自然语言处理
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
本篇文章针对B站在运营场景中的痛点,深入探讨如何利用阿里云Data+AI解决方案实现智能问数服务,赋能平台用户和运营人员提升自助取数和分析能力,提高价值交付效率的同时为数据平台减负。
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
|
7天前
|
人工智能 Kubernetes 安全
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
43 13
|
11天前
|
人工智能 NoSQL MongoDB
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
|
25天前
|
人工智能 安全 JavaScript
Open Interpreter:AI 赋能终端!在终端中对话AI模型进行编程,通过运行代码来完成各种计算机操作任务
Open Interpreter 是一个让语言模型运行代码的强大工具,提供了一个类似 ChatGPT 的界面,支持多种编程语言和丰富的功能。
82 7
Open Interpreter:AI 赋能终端!在终端中对话AI模型进行编程,通过运行代码来完成各种计算机操作任务
|
9天前
|
人工智能 自然语言处理 搜索推荐
AI 赋能:开启内容生产效率革命的密钥》
在数字化时代,AI技术正成为提高内容生产效率的关键工具。本文探讨了AI在文章写作、文案创作、翻译、图像识别与生成及数据分析等方面的应用,分析了其提高效率的方式、带来的优势与挑战,并通过新闻媒体、营销、教育等行业案例,展望了AI在内容生产领域的未来。
|
25天前
|
人工智能 Shell iOS开发
AI Shell:在命令行里“对话” AI ,微软推出将 AI 助手引入命令行的 CLI 工具,打造对话式交互命令行
AI Shell 是一款强大的 CLI 工具,将人工智能直接集成到命令行中,帮助用户提高生产力。AI Shell 支持多种 AI 模型和助手,通过多代理框架提供丰富的功能和灵活的使用模式。
82 7