阿里达摩院:以语音为代表的人机交互或许是未来硬件和机器人的标配

简介: 【摘要】语音和多模态人机交互会是以机器人为代表的智能硬件的必备特征, 实践中首先要克服的是声学环境的复杂性。在声学前端核心技术上, 深挖信号处理的在线自适应能力, 以及经典信号处理与任务模型的联合优化是我们的技术特色, 也因此在高噪声、高性价比等实际业务场景都创造了多项业内第一。声学模组和芯片化也是克服场景碎片化的有效手段, 也因此快速合作落地了一批智能硬件产品, 赢得了客户的口碑,为端侧计算能力的平台化, 探索了有生命力的路径。

截屏2021-12-02 下午8.20.12.png

【摘要】语音和多模态人机交互会是以机器人为代表的智能硬件的必备特征, 实践中首先要克服的是声学环境的复杂性。在声学前端核心技术上, 深挖信号处理的在线自适应能力, 以及经典信号处理与任务模型的联合优化是我们的技术特色, 也因此在高噪声、高性价比等实际业务场景都创造了多项业内第一。声学模组和芯片化也是克服场景碎片化的有效手段, 也因此快速合作落地了一批智能硬件产品, 赢得了客户的口碑,为端侧计算能力的平台化, 探索了有生命力的路径。2021年以来,机器人赛道受到资本热捧。仅前10个月拿到融资的机器人项目就有299个,其中253个集中在C轮及以前,79个项目的融资额在亿元人民币以上。

天眼查数据还显示,今年新增的机器人相关企业就超过10万家。截至目前,我国有超过32万家机器人相关企业(企业名称或经营范围包含机器人)。在地域上,广东省机器人相关企业最多,有超过7万家,占比达22.02%。是第二名江苏的近2倍。

所以在这个产业和资本的双重背景下,36氪于11月25日在深圳举办了超前体验·机器人峰会。此次峰会邀请了众多投资人、科学家、学者、优秀创业者以及相关从业者,共同探讨行业新趋势,以及在新环境下如何让技术走进大众生活。嘉宾包括中国工程院院士谭建荣、达晨财智业务合伙人任俊熙、蓝驰创投董事总经理曹巍、阿里巴巴达摩院研究员付强、高仙机器人创始人兼CEO程昊天、大族机器人CEO王光能、未来机器人创始人李陆洋、云迹科技执行总裁兼CTO林小俊等多位嘉宾。

“语音和多模态的人机交互会是以机器人为代表的智能硬件必备特征,实践中首先要克服的是声学的复杂性。”阿里达摩院拥有应对不同声学环境下的思路和技术链条。

以下是阿里达摩院语音实验室付强先生的现场演讲《复杂声学环境下的语音交互》(经编辑):

截屏2021-12-02 下午8.20.22.png

其实在无论是智能硬件还是特指机器人这个行业,以语音为代表的人机交互是一个比较重要的特征。刚才我听达晨财智的任总也提到无论是VR、AR、机器人还是别的一些行业,语音交互和知识图谱的应用,都是一个必选项。但是这种人机交互,特别是语音交互的技术在应用上的问题在哪里?首先是不同的场景会遇到不同的声学问题, 包括背景噪声、混响等声学环境特性的差异。模组化是应对各种碎片场景的一个常用的技术手段。这是什么意思呢?就是说我们希望能够通过对声学器件、操作系统、声频算法和交互应用调度, 包括连接协议等做成从软件到硬件的一体化封装,去应对不同的场景里的离散性的问题,使得方案更加得平台化,与声学和音频相关的技术也能被沉淀。另一方面,就是提升跟客户对接的效率,包括我们也提供二次编程能力。

刚才我们讲了应对不同的声学场景下的思路和技术栈,接下来介绍阿里达摩院的整个语音AI技术栈。

一个标准的语音交互链路,端上首先是有信号处理,然后是语音唤醒, 本地识别等,还有服务智能硬件所不可缺少的声学设计配套。云端的语音服务主要就是识别、合成、对话管理,还有声纹相关的技术栈等,这些构成了一个完整的从端到云的技术链。

下面逐一介绍一下整个技术链条上我们一些关键技术的突破,主要是近期比较着重打造的东西。

首先讲声学前端, 这一块是跟场景,硬件适配最前端的一个接口。在我们这个方案里,比较重要的特色是强调了信号处理的重要性,如果说大家可能熟悉这个领域中的一些技术的前沿成果的话,可能会关注到比如说深度学习技术对交互中的渗透,但是从我们的实践和对这个行业的理解来看,在相当一段时间内经典信号处理里的作用一定会被保留。这是为什么呢?就是我们讲到的场景的复杂性,不是说通过较为单一的场景的样本的数据就能获得全场景的声学环境适配能力, 经典信号处理理论存在这这里的意义在于在线的自适应优化,这是“魂”。

在这个前提之下,我们着重发展一些我们有特色的信号处理相关的技术,比如说盲源分离,它的特点是什么?就是比较适合小阵列,在消费电子行业里,当麦克风的个数不能够太多但是性能要求又比较高这样的场景,这是选择这一路线的基础依据。特别是我们前期的工作,把它形成了以盲源分离理论为核心的对环境噪声、房间混响和设备回声的统一处理框架, 也是我们在该领域应用研究层面的学术贡献。由相关理论支撑的AEC算法甚至还在由国际权威学术机构组织的挑战赛上拿到国内第一的成绩。

接下来是高抗噪的视觉听觉多模态融合技术,视觉的融合对于听觉来讲是一个更好的补充。在业内来讲,我们的多模态融合技术是走向实践比较早的,我们2018年就跟上海地铁合作,在地铁这个场景里首次把多模态语音交互技术用到了实践。这张图显示了多模融合算法处理基本流程和原理,我们把端上离线识别的人脸人体这些信息用于跟我们的信号处理相关的信息做前端融合,实现了更有效的应对语音干扰的机制。

回到方案层面,刚刚讲了声学的这种模组化,我们在近几年时间内提炼出来几套应对不同场景的模组方案:

第一个,我们讲高性价比,这是是什么意思呢?举个例子,比如说智能音箱、家电等,对成本要求比较敏感,对性能要求也比较严苛,追求高性价比的场景。

第二个,就是高性能,这个性能主要体现在对噪声环境的鲁棒性。

第三个,就是多模态,这里的多模态的, 更多还是指处理复杂声学场景的技术能力。

还有一点,就是芯片化,也是我们模组化的一个极致表现, 只有算法和芯片设计有机融合, 才能产生极致性价比的解决方案, 后面也有一些应用案例。

接下来讲讲我们语音技术的几个落地案例。过去几年我们的语音交互技术和方案以软核形式落地了海尔、康佳,还有一些与优酷合作的投影仪等跟与家庭场景相关的智能硬件, 同时也提供了拾音模组和声学结构的参考设计, 包括业内唯一的声学装配效果产线专业测试设备。从规模上来讲,几年下来大约有近千万级累计装机量, 从客户的满意度调查反馈上, 也显示出小阵列条件下难得的较强抗卖场环境噪声能力。

接下来,就是我刚刚讲的高性价比的模组和芯片的一些落地案例,这里面包括喜马拉雅的音箱,以及它的AI早教机,这是一种儿童教育硬件,也算是一种小型的机器人。然后就是与天猫精灵一起合作的车载精灵和两轮电动车。客户是对该芯片的选择, 首要的一点就是高性价比这一主打特点。这个特点的形成是由包括从端侧算法的路线选择, 与平头哥团队共同进行的算法深度工程优化和根据算法定义硬核算子等多方面的努力得到的结果。同时也包括我们整体的售后技术支持和产品持续升级能力。

高性能语音模组方案是和天猫精灵合作并落地的,第一个产品就是科沃斯扫地机N9+,也是业内第一台能在行进过程中进行语音交互的扫地机, 在今年6.18上市。它克服的问题是什么呢?是高自噪、大回声,移动远场和低算力等技术挑战。该方案在扫地机行业的推广应用正在进行中, 同时我们在该场景下, 更低资源需求和更高性能的版本也即将发布。第二个案例就是这个机器狗,它本身噪音倒没有那么大,但是它应用场景可能是比较嘈杂的,它经常在一些展会等较吵闹的公众场景做演示。比如今年云栖大会上, 就在有公司内外的一些重要领导和嘉宾围观的情况下, 顺利完成了所有的人机交互动作演示。

下面讲讲多模态交互技术的应用,就是靠纯声学不能解决问题的时候,需要依靠音视频融合的技术和方案。从2018年开始在上海地铁全面落地,到近几年北京,哈尔滨、南京、成都等城市的地铁里,由于我们的推动,你会看到新开的地铁线里,语音交互已然成为购票机的标配。当然,现在这个技术不仅仅是用在购票这个场景,更多的是在交互服务机器人或者服务大屏的智能查询,比如说医院的导诊,政务、金融这些问询场景。这种非接触的语音交互,在疫情的背景下,也会是一个逐渐强烈的需求。

另外两个案例,一个是跟钉钉合作的智能无人前台,大家都知道考勤机, 这个算是考勤机的一个智能版本,我直接说出我想找谁,通过企业通讯录的数据匹配, 然后它就可以直接视频通话,来去替代前台人工的服务,这也算是前台服务机器人的一个表现形式。右边这个本来是一个视频,但是今天没有时间去展示,我就简单说一下,这其实是一个语音自助售货机,展示的理念就是一方面它能够做语音的交互,另一方面它有主动交互的功能,售货机能自动打招呼,检测你是男性女性,还有年龄大小,能主动给你做产品的推介,吸引你过来。我相信在机器人这个场景里,主动交互也是一个非常有价值的技术。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
人工智能 机器人 语音技术
ai智能语音机器人运营的核心
​  运营机器人核心关注的只有两个点,一个是机器人话术库的关键词是否充足,二是对录音的高要求。每一个话术,都把它当成一个重要的项目来做。比如做需求调研,学习客户的行业知识,了解他们这个行业打电话的语气语调。其它的东西,能拿出来运营的机器人产品,核心的东西都不会差到哪去。有关系统问题欢迎看博主名字一起技术交流。![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e1589ad7c9f1423bb24c7f5f6a2bcc42~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=814&h=232&s=
ai智能语音机器人运营的核心
|
存储 人工智能 搜索推荐
AI智能语音机器人的基本业务流程
先画个图,了解下AI语音机器人的基本业务流程。 上图是一个AI语音机器人的业务流程,简单来说就是首先要配置话术,就是告诉机器人在遇到问题该怎么回答,这个不同公司不同行业的差别比较大,所以一般每个客户都会配置其个性化的话术。 话术配置完成后,需要给账号配置线路,目的就是能够顺利的把电话打出去。 线路配完后,就是建立任务了,说白了就是导入电话号码,因为资源有限,不可能导入一批立即打完,所以需要以任务的形式分配给机器人,然后机器人逐个完成。值得一提的是,如果有多条线路,创建任务时建议提供线路选择功能,很多公司的业务不止一个城市,而大家又是比较习惯接听自己所在城市的电话,所以这个选择主
|
1月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
33 2
|
1月前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
281 1
|
人工智能 机器人 语音技术
AI智能语音机器人有什么优势呢
1.高效自动拨号功能。 导入客户数据,外呼机器人自动拨号,无需看守,真人录音话术,定制场景问答和1秒内的问答响应,为客户带来真实准确的咨询体验。同时,每次通话结束后,外呼系统根据通话时间和关键词将拨号对象分级,实时推送到企业微信,提醒坐席及时跟进。有关系统问题欢迎和博主进行技术交流。 kelaile520 2.实时反馈和及时迭代   外呼机器人每次呼叫都会保留录音,文本翻译会立即显示在后台。通过听录音和看翻译,我们可以知道语音设置是否符合对话场景,从而调整、补充和优化话术。经过多次迭代和优化,外呼机器人将更加灵活,这是大家说机器人聪明的关键步骤。 3.准确的语音识别   
|
人工智能 机器人 语音技术
AI智能机器人使用语音消息的四种方式
经常接到AI机器人电话,基本都是TTS转的语音,一听就知道是机器人,如果我不是有主观需求,是懒得跟机器人沟通的,那如何让AI机器人外呼更有效一些呢? 1、话术设计 文字类的提醒,是很容易让人忘记的,比如以前的电子邮件,现在的短信,甚至加了微信的好友,也会容易忘记,不是说语音消息不会被忘记,只是它能在人们的大脑里停留的时间更长一些。 中国各城市的方言众多,目前很少做到细分的方言支持,针对性的方言会更有亲和力些,同时话术设计上,如何让客户印象更深刻。 2、信息查询 目前不少大型企业,服务类的(比如物流、金融、教育、运营商等)企业都有AI机器人的信息查询接口。 3、收集客户的意见反馈
|
人工智能 机器人 UED
ai智能语音机器人系统都有什么功能?
第一、 智能AI电销机器人的并发量是多少啊?别人可以同时呼出几个? 通常情况下,智能AI电销机器人可以根据客户的需要选择客户需要的外呼并发量,最大可以实现一条宽带,一个主机,可以同时保持客户使用的灵活性,即能兼顾效率,也能兼顾成本控制。 第二、可以转人工?对话时可以打断机器人吗? 转人工和中途打断都是可以的,这些都是电话机器人的基本功能,个人不建议您用转人工的功能,因为每次转人工,机器人都要等到这通转接人工通话结束后才会进行下一通的呼出,这就大大降低了机器人的拨打效率了。所以留给后续人工跟进是最合理的。打断功能是客户说任何内容都能打断的,为了保证一个良好的用户体验度,一些无意义的语气
|
人工智能 机器人 语音技术
AI机器人系统服务企业使用语音消息的方式
经常接到AI机器人电话,基本都是TTS转的语音,一听就知道是机器人,如果我不是有主观需求,是懒得跟机器人沟通的,那如何让AI机器人外呼更有效一些呢?
|
机器人 语音技术 Android开发
App Inventor 2 语音交互机器人Robot,使用讯飞语音识别引擎
App Inventor 2 语音识别及交互App。识别语言指令并控制机器人运动,主要用到语音识别器及文本朗读器组件,语音识别相关开发最佳入门。代码逻辑简单,App交互性及趣味性非常强~
252 0
|
人工智能 机器人 应用服务中间件
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
14 0
AI语音机器人安装方法 AI机器人安装代码

热门文章

最新文章