刚刚!没参加饭局的马云用iDST的语音技术买了张地铁票,竟然没说唤醒词

简介:

搭地铁,有几个步骤?

你可能需要掏出手机,打开地图软件,搜索到到达目的地的路线后,才能买票进站。有时,哪怕知道终点站,可能也记不清应该搭乘的是几号线。
12 月 5 日,阿里巴巴、蚂蚁金服和申通地铁集团联合推出新一代售票机,可以让乘客用语音交互的形式买票,具有指定站名或票价购票、目的地模糊搜索购票等功能。也就是说,站在机器旁,你只需要告诉它「我要去中山公园」,它就会自动调用云端的高德地图服务,确定目的地最近的地铁站后直接出票。
在上海申通地铁公司,马云亲自体验了「动动嘴」买票乘地铁。申通地铁公司与阿里巴巴联合,正在逐步对上海的自动售票机进行改造升级,并将于明年覆盖上海主要地铁线。

7b217563237df4fafd3795b7eb5f850fea8a1ad7

签约仪式现场,图片来自澎湃记者

对阿里巴巴而言,项目意义重大。此前,我们更多听到阿里巴巴在城市道路交通等方面的布局。现在,阿里巴巴通过售票机、闸机、客流预测,开始覆盖智能票务、公共交通管理等,进一步完善其城市大脑的范畴。

当然,这背后仍然少不了达摩院 iDST 的身影。这是上周声学专家、原宝利通(Polycom)声学设计与信号处理首席工程师冯津伟加入阿里巴巴 iDST 语音团队之后,该语音团队又完成的一件大事。作为项目主要负责人,iDST 语音团队负责人鄢志杰认为,地铁智能购票系统所用的多模态交互就是阿里巴巴 iDST 团队对下一代人机交互可能性的一种尝试——你只要走近机器,不需要唤醒,它就会自动与你发生交互。
「或许未来就没有唤醒词这个概念了。」鄢志杰说。
更方便的语音购票如何实现?
地铁站人多嘈杂,准确识别语音命令是个挑战,鄢志杰团队把计算机视觉技术融合到语音识别技术中,攻克了嘈杂环境下的远讲降噪问题。

960742a0ab8bc50ac1a0a16e61b3f751b335706e

实测视频

他们为系统添加了光学摄像头模块,通过识别机器视角内人员的嘴部动作识别说话人,并判断说话人与机器的距离以及确定拾音角度。这些视觉信号将会与音频信号相融合,通过一个大的麦克风阵列以及配套的软件信号处理器进行抑制干扰与信号增强,最终做到准确拾音。
在语音交互方向上,强噪声、强干扰下的人机交互问题一直都是 iDST 的研究重点。鄢志杰解释说,这些视觉、听觉结合的技术被称为「多模态融合技术」,是人机交互发展的新方向。今年云栖大会上,阿里巴巴宣布成立达摩院,而达摩院的成立初衷之一便是实现下一代人机交互。
目前,以智能音箱、语音助手等语音对话系统为代表的人机交互,最大的局限在于需要唤醒词,且仅限于家居、车载等相对封闭且安静的环境。而下一代人机交互要适用于更多更复杂的场景,地铁购票项目则是阿里巴巴 iDST 团队的第一次试水。
地铁购票是起点,底层技术还会被广泛复制
大约半年前,鄢志杰所在的团队开始孵化这一底层技术的研发,由五个人组成的小分队负责。在这次项目方案中,iDST 内部也有合作,「光学摄像头,是任小枫团队给我们 API 的调用,我们做了多模态整合。」鄢志杰说。
鄢志杰透露,地铁项目给团队带来的挑战是系统稳定性以及快速学习能力。在地铁这样的公共服务设施中,系统需要全天候工作。并且不像互联网云端项目方便修改,地铁项目的修改灵活性要稍差一些。
另外,项目正式上线运营后,大规模的用户涌入,如何识别用户千奇百怪的交互方式也是团队需要面对的难点之一,这需要系统具备很强的快速学习能力,迅速适应用户的自然表达方式。
而这只是项目底层技术——嘈杂环境下远讲降噪技术第一个使用场景,并非针对项目定制。在地铁语音购票之外,它还有很强的普适性。在如机场、火车站、展会、社区、餐厅、商场等开放的嘈杂场景下,该技术都能发挥作用。例如社区问讯系统、电梯广告交互系统、景区导览等。

鄢志杰表示:「这些嘈杂环境是用户生活中最常遇到的,同时从技术层面来说本身又是最难的一类场景。」
阿里巴巴正积极寻找新场景,与合作伙伴一起开发落地途径。鄢志杰表示,团队希望这一技术能走到每一个人身边。「之前我没有见到过哪一家公司能在这么嘈杂的公共环境下做远距离的交互。」鄢志杰说,这是阿里人工智能的底气。

相关文章
|
6月前
|
Serverless 黑灰产治理
AIGC小说创作大赛活动名单公布
AIGC小说创作大赛活动名单公布
540 0
|
人工智能 Serverless 云计算
快来解锁你家萌宠专属 AI 形象!
快来解锁你家萌宠专属 AI 形象!
|
机器学习/深度学习 数据采集 编解码
360数科夺得OCR国际技术竞赛冠军,商超小票文本行识别如何做到最佳?
360数科夺得OCR国际技术竞赛冠军,商超小票文本行识别如何做到最佳?
129 0
|
人工智能 编解码 计算机视觉
照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
280 0
|
人工智能 Cloud Native 关系型数据库
【邀请函】你有一个与李飞飞对话的机会!
「开源人说」为阿里云开发者社区与InfoQ 联合出品的一档精品开源视频栏目。栏目围绕四大开源领域:云原生、操作系统、数据库、大数据&AI,介绍优秀的开源软件背后的故事,记录传播技术人追求极致和开放共享的精神。 第三期数据库PolarDB线下专场沙龙现免费开放报名入口!名额有限,你与数据库大佬零距离互动交流的机会不容错过哦!
【邀请函】你有一个与李飞飞对话的机会!
|
机器学习/深度学习 人工智能 自然语言处理
汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术
在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。
汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术
|
机器学习/深度学习 人工智能 编解码
跳舞手脚不协调?没关系,微视用AI打造你我的舞林大会,一张照片就可以
继让老照片动起来、唱歌之后,腾讯微视又解锁了照片的跳舞技能。
267 0
跳舞手脚不协调?没关系,微视用AI打造你我的舞林大会,一张照片就可以
|
物联网 开发者
投稿IoT征文,抢与技术大牛连线机会!
想要T恤、背包、键盘这些开发者必备装备吗?想跟技术大牛连线吗?参与征文投稿,下一个“天选之子”就是你!
投稿IoT征文,抢与技术大牛连线机会!
|
缓存 监控 安全
1分钟出票5万张!阿里电影节抢票技术揭秘
对于电影爱好者来说,每次的电影节、影展活动,都是抢票大战的开启,出票速度几乎可以用“秒空”来形容,例如上海国际电影节线上开售的记录是1分钟售出5万张。 今天,阿里高级开发工程师念贤主要围绕售票环节,讲述阿里文娱的云智系统是如何支撑高流量并发,保障系统的稳定,不出现重卖等实现方案背后的技术。
836 0
1分钟出票5万张!阿里电影节抢票技术揭秘
下一篇
无影云桌面