刚刚!没参加饭局的马云用iDST的语音技术买了张地铁票,竟然没说唤醒词

简介:

搭地铁,有几个步骤?

你可能需要掏出手机,打开地图软件,搜索到到达目的地的路线后,才能买票进站。有时,哪怕知道终点站,可能也记不清应该搭乘的是几号线。
12 月 5 日,阿里巴巴、蚂蚁金服和申通地铁集团联合推出新一代售票机,可以让乘客用语音交互的形式买票,具有指定站名或票价购票、目的地模糊搜索购票等功能。也就是说,站在机器旁,你只需要告诉它「我要去中山公园」,它就会自动调用云端的高德地图服务,确定目的地最近的地铁站后直接出票。
在上海申通地铁公司,马云亲自体验了「动动嘴」买票乘地铁。申通地铁公司与阿里巴巴联合,正在逐步对上海的自动售票机进行改造升级,并将于明年覆盖上海主要地铁线。

7b217563237df4fafd3795b7eb5f850fea8a1ad7

签约仪式现场,图片来自澎湃记者

对阿里巴巴而言,项目意义重大。此前,我们更多听到阿里巴巴在城市道路交通等方面的布局。现在,阿里巴巴通过售票机、闸机、客流预测,开始覆盖智能票务、公共交通管理等,进一步完善其城市大脑的范畴。

当然,这背后仍然少不了达摩院 iDST 的身影。这是上周声学专家、原宝利通(Polycom)声学设计与信号处理首席工程师冯津伟加入阿里巴巴 iDST 语音团队之后,该语音团队又完成的一件大事。作为项目主要负责人,iDST 语音团队负责人鄢志杰认为,地铁智能购票系统所用的多模态交互就是阿里巴巴 iDST 团队对下一代人机交互可能性的一种尝试——你只要走近机器,不需要唤醒,它就会自动与你发生交互。
「或许未来就没有唤醒词这个概念了。」鄢志杰说。
更方便的语音购票如何实现?
地铁站人多嘈杂,准确识别语音命令是个挑战,鄢志杰团队把计算机视觉技术融合到语音识别技术中,攻克了嘈杂环境下的远讲降噪问题。

960742a0ab8bc50ac1a0a16e61b3f751b335706e

实测视频

他们为系统添加了光学摄像头模块,通过识别机器视角内人员的嘴部动作识别说话人,并判断说话人与机器的距离以及确定拾音角度。这些视觉信号将会与音频信号相融合,通过一个大的麦克风阵列以及配套的软件信号处理器进行抑制干扰与信号增强,最终做到准确拾音。
在语音交互方向上,强噪声、强干扰下的人机交互问题一直都是 iDST 的研究重点。鄢志杰解释说,这些视觉、听觉结合的技术被称为「多模态融合技术」,是人机交互发展的新方向。今年云栖大会上,阿里巴巴宣布成立达摩院,而达摩院的成立初衷之一便是实现下一代人机交互。
目前,以智能音箱、语音助手等语音对话系统为代表的人机交互,最大的局限在于需要唤醒词,且仅限于家居、车载等相对封闭且安静的环境。而下一代人机交互要适用于更多更复杂的场景,地铁购票项目则是阿里巴巴 iDST 团队的第一次试水。
地铁购票是起点,底层技术还会被广泛复制
大约半年前,鄢志杰所在的团队开始孵化这一底层技术的研发,由五个人组成的小分队负责。在这次项目方案中,iDST 内部也有合作,「光学摄像头,是任小枫团队给我们 API 的调用,我们做了多模态整合。」鄢志杰说。
鄢志杰透露,地铁项目给团队带来的挑战是系统稳定性以及快速学习能力。在地铁这样的公共服务设施中,系统需要全天候工作。并且不像互联网云端项目方便修改,地铁项目的修改灵活性要稍差一些。
另外,项目正式上线运营后,大规模的用户涌入,如何识别用户千奇百怪的交互方式也是团队需要面对的难点之一,这需要系统具备很强的快速学习能力,迅速适应用户的自然表达方式。
而这只是项目底层技术——嘈杂环境下远讲降噪技术第一个使用场景,并非针对项目定制。在地铁语音购票之外,它还有很强的普适性。在如机场、火车站、展会、社区、餐厅、商场等开放的嘈杂场景下,该技术都能发挥作用。例如社区问讯系统、电梯广告交互系统、景区导览等。

鄢志杰表示:「这些嘈杂环境是用户生活中最常遇到的,同时从技术层面来说本身又是最难的一类场景。」
阿里巴巴正积极寻找新场景,与合作伙伴一起开发落地途径。鄢志杰表示,团队希望这一技术能走到每一个人身边。「之前我没有见到过哪一家公司能在这么嘈杂的公共环境下做远距离的交互。」鄢志杰说,这是阿里人工智能的底气。

相关文章
|
JSON 小程序 JavaScript
uni-app开发微信小程序的报错[渲染层错误]排查及解决
uni-app开发微信小程序的报错[渲染层错误]排查及解决
2695 7
|
存储 监控 Go
面向OpenTelemetry的Golang应用无侵入插桩技术
文章主要讲述了阿里云 ARMS 团队与程序语言与编译器团队合作研发的面向OpenTelemetry的Golang应用无侵入插桩技术解决方案,旨在解决Golang应用监控的挑战。
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的茶叶销售系统附带文章和源代码部署视频讲解等
基于ssm+vue.js+uniapp小程序的茶叶销售系统附带文章和源代码部署视频讲解等
132 7
|
安全 Unix Linux
【Linux】安装配置解决Centos&MobaXterm的使用及Linux常用命令以及命令模式
【Linux】安装配置解决Centos&MobaXterm的使用及Linux常用命令以及命令模式
618 0
|
JavaScript 前端开发 Java
springboot+vue毕业设计选题系统
本毕业设计选题系统是针对目前毕业设计选题管理的实际需求,从实际工作出发,对过去的毕业设计选题管理系统存在的问题进行分析,完善用户的使用体会。采用计算机系统来管理信息,取代人工管理模式,查询便利,信息准确率高,节省了开支,提高了工作的效率。本系统结合计算机系统的结构、概念、模型、原理、方法,在计算机各种优势的情况下,采用JAVA语言,结合SpringBoot框架与Vue框架以及MYSQL数据库设计并实现的。本毕业设计选题管理系统主要包括个人中心、用户管理、选题信息管理、设计信息管理等多个模块。它帮助毕业设计选题管理实现了信息化、网络化,通过测试,实现了系统设计目标,相比传统的管理模式,本系统合理
633 0
|
6天前
|
弹性计算 人工智能 安全
云上十五年——「弹性计算十五周年」系列客户故事(第二期)
阿里云弹性计算十五年深耕,以第九代ECS g9i实例引领算力革新。携手海尔三翼鸟、小鹏汽车、微帧科技等企业,实现性能跃升与成本优化,赋能AI、物联网、智能驾驶等前沿场景,共绘云端增长新图景。
|
12天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
3天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
11天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知