【摘要】语音和多模态人机交互会是以机器人为代表的智能硬件的必备特征, 实践中首先要克服的是声学环境的复杂性。在声学前端核心技术上, 深挖信号处理的在线自适应能力, 以及经典信号处理与任务模型的联合优化是我们的技术特色, 也因此在高噪声、高性价比等实际业务场景都创造了多项业内第一。声学模组和芯片化也是克服场景碎片化的有效手段, 也因此快速合作落地了一批智能硬件产品, 赢得了客户的口碑,为端侧计算能力的平台化, 探索了有生命力的路径。2021年以来,机器人赛道受到资本热捧。仅前10个月拿到融资的机器人项目就有299个,其中253个集中在C轮及以前,79个项目的融资额在亿元人民币以上。
天眼查数据还显示,今年新增的机器人相关企业就超过10万家。截至目前,我国有超过32万家机器人相关企业(企业名称或经营范围包含机器人)。在地域上,广东省机器人相关企业最多,有超过7万家,占比达22.02%。是第二名江苏的近2倍。
所以在这个产业和资本的双重背景下,36氪于11月25日在深圳举办了超前体验·机器人峰会。此次峰会邀请了众多投资人、科学家、学者、优秀创业者以及相关从业者,共同探讨行业新趋势,以及在新环境下如何让技术走进大众生活。嘉宾包括中国工程院院士谭建荣、达晨财智业务合伙人任俊熙、蓝驰创投董事总经理曹巍、阿里巴巴达摩院研究员付强、高仙机器人创始人兼CEO程昊天、大族机器人CEO王光能、未来机器人创始人李陆洋、云迹科技执行总裁兼CTO林小俊等多位嘉宾。
“语音和多模态的人机交互会是以机器人为代表的智能硬件必备特征,实践中首先要克服的是声学的复杂性。”阿里达摩院拥有应对不同声学环境下的思路和技术链条。
以下是阿里达摩院语音实验室付强先生的现场演讲《复杂声学环境下的语音交互》(经编辑):
“其实在无论是智能硬件还是特指机器人这个行业,以语音为代表的人机交互是一个比较重要的特征。刚才我听达晨财智的任总也提到无论是VR、AR、机器人还是别的一些行业,语音交互和知识图谱的应用,都是一个必选项。但是这种人机交互,特别是语音交互的技术在应用上的问题在哪里?首先是不同的场景会遇到不同的声学问题, 包括背景噪声、混响等声学环境特性的差异。模组化是应对各种碎片场景的一个常用的技术手段。这是什么意思呢?就是说我们希望能够通过对声学器件、操作系统、声频算法和交互应用调度, 包括连接协议等做成从软件到硬件的一体化封装,去应对不同的场景里的离散性的问题,使得方案更加得平台化,与声学和音频相关的技术也能被沉淀。另一方面,就是提升跟客户对接的效率,包括我们也提供二次编程能力。
刚才我们讲了应对不同的声学场景下的思路和技术栈,接下来介绍阿里达摩院的整个语音AI技术栈。
一个标准的语音交互链路,端上首先是有信号处理,然后是语音唤醒, 本地识别等,还有服务智能硬件所不可缺少的声学设计配套。云端的语音服务主要就是识别、合成、对话管理,还有声纹相关的技术栈等,这些构成了一个完整的从端到云的技术链。
下面逐一介绍一下整个技术链条上我们一些关键技术的突破,主要是近期比较着重打造的东西。
首先讲声学前端, 这一块是跟场景,硬件适配最前端的一个接口。在我们这个方案里,比较重要的特色是强调了信号处理的重要性,如果说大家可能熟悉这个领域中的一些技术的前沿成果的话,可能会关注到比如说深度学习技术对交互中的渗透,但是从我们的实践和对这个行业的理解来看,在相当一段时间内经典信号处理里的作用一定会被保留。这是为什么呢?就是我们讲到的场景的复杂性,不是说通过较为单一的场景的样本的数据就能获得全场景的声学环境适配能力, 经典信号处理理论存在这这里的意义在于在线的自适应优化,这是“魂”。
在这个前提之下,我们着重发展一些我们有特色的信号处理相关的技术,比如说盲源分离,它的特点是什么?就是比较适合小阵列,在消费电子行业里,当麦克风的个数不能够太多但是性能要求又比较高这样的场景,这是选择这一路线的基础依据。特别是我们前期的工作,把它形成了以盲源分离理论为核心的对环境噪声、房间混响和设备回声的统一处理框架, 也是我们在该领域应用研究层面的学术贡献。由相关理论支撑的AEC算法甚至还在由国际权威学术机构组织的挑战赛上拿到国内第一的成绩。
接下来是高抗噪的视觉听觉多模态融合技术,视觉的融合对于听觉来讲是一个更好的补充。在业内来讲,我们的多模态融合技术是走向实践比较早的,我们2018年就跟上海地铁合作,在地铁这个场景里首次把多模态语音交互技术用到了实践。这张图显示了多模融合算法处理基本流程和原理,我们把端上离线识别的人脸人体这些信息用于跟我们的信号处理相关的信息做前端融合,实现了更有效的应对语音干扰的机制。
回到方案层面,刚刚讲了声学的这种模组化,我们在近几年时间内提炼出来几套应对不同场景的模组方案:
第一个,我们讲高性价比,这是是什么意思呢?举个例子,比如说智能音箱、家电等,对成本要求比较敏感,对性能要求也比较严苛,追求高性价比的场景。
第二个,就是高性能,这个性能主要体现在对噪声环境的鲁棒性。
第三个,就是多模态,这里的多模态的, 更多还是指处理复杂声学场景的技术能力。
还有一点,就是芯片化,也是我们模组化的一个极致表现, 只有算法和芯片设计有机融合, 才能产生极致性价比的解决方案, 后面也有一些应用案例。
接下来讲讲我们语音技术的几个落地案例。过去几年我们的语音交互技术和方案以软核形式落地了海尔、康佳,还有一些与优酷合作的投影仪等跟与家庭场景相关的智能硬件, 同时也提供了拾音模组和声学结构的参考设计, 包括业内唯一的声学装配效果产线专业测试设备。从规模上来讲,几年下来大约有近千万级累计装机量, 从客户的满意度调查反馈上, 也显示出小阵列条件下难得的较强抗卖场环境噪声能力。
接下来,就是我刚刚讲的高性价比的模组和芯片的一些落地案例,这里面包括喜马拉雅的音箱,以及它的AI早教机,这是一种儿童教育硬件,也算是一种小型的机器人。然后就是与天猫精灵一起合作的车载精灵和两轮电动车。客户是对该芯片的选择, 首要的一点就是高性价比这一主打特点。这个特点的形成是由包括从端侧算法的路线选择, 与平头哥团队共同进行的算法深度工程优化和根据算法定义硬核算子等多方面的努力得到的结果。同时也包括我们整体的售后技术支持和产品持续升级能力。
高性能语音模组方案是和天猫精灵合作并落地的,第一个产品就是科沃斯扫地机N9+,也是业内第一台能在行进过程中进行语音交互的扫地机, 在今年6.18上市。它克服的问题是什么呢?是高自噪、大回声,移动远场和低算力等技术挑战。该方案在扫地机行业的推广应用正在进行中, 同时我们在该场景下, 更低资源需求和更高性能的版本也即将发布。第二个案例就是这个机器狗,它本身噪音倒没有那么大,但是它应用场景可能是比较嘈杂的,它经常在一些展会等较吵闹的公众场景做演示。比如今年云栖大会上, 就在有公司内外的一些重要领导和嘉宾围观的情况下, 顺利完成了所有的人机交互动作演示。
下面讲讲多模态交互技术的应用,就是靠纯声学不能解决问题的时候,需要依靠音视频融合的技术和方案。从2018年开始在上海地铁全面落地,到近几年北京,哈尔滨、南京、成都等城市的地铁里,由于我们的推动,你会看到新开的地铁线里,语音交互已然成为购票机的标配。当然,现在这个技术不仅仅是用在购票这个场景,更多的是在交互服务机器人或者服务大屏的智能查询,比如说医院的导诊,政务、金融这些问询场景。这种非接触的语音交互,在疫情的背景下,也会是一个逐渐强烈的需求。
另外两个案例,一个是跟钉钉合作的智能无人前台,大家都知道考勤机, 这个算是考勤机的一个智能版本,我直接说出我想找谁,通过企业通讯录的数据匹配, 然后它就可以直接视频通话,来去替代前台人工的服务,这也算是前台服务机器人的一个表现形式。右边这个本来是一个视频,但是今天没有时间去展示,我就简单说一下,这其实是一个语音自助售货机,展示的理念就是一方面它能够做语音的交互,另一方面它有主动交互的功能,售货机能自动打招呼,检测你是男性女性,还有年龄大小,能主动给你做产品的推介,吸引你过来。我相信在机器人这个场景里,主动交互也是一个非常有价值的技术。”