作者:李大鹏,阿里云人工智能行业产品专家
一、天猫精灵对话
天猫精灵作为一个智能音箱品牌,覆盖了超过 4000 多万家庭用户,拥有 5000 多项服务技能,AIoT合作厂商超过 1000 家,拥有超 3. 5 亿的可连接设备以及1600+品牌的智能产品。同时,天猫精灵打造了一套AIGenie系统,包含软件、硬件以及相关的 AI 能力,诞生了云端一体的新的 AIoT 产品。
智能音箱包含智能与硬件两部分。
人工智能包括语音语义能力、视觉能力、交互能力等,全部由天猫精灵自研。比如语音能力包括了唤醒语音的识别、声纹语音的合成等,视觉能力在座舱里被广泛使用,包括图像识别、人脸识别、手势识别等,交互能力包括多模态交互、辨别手势等。除了语音语义能力之外,也提供了通话、购物、游戏、音视频、百科知识库等能力。
相关的硬件产品包括X系列、方糖系列、QUEEN系列等。
在 AIoT领域,天猫精灵实现了十分强大的布局,可以提供一站式的语音开发能力、IoT设备控制能力、AI算法集成能力以及数字内容变现能力。
天猫精灵将语音识别、自然语言理解、语音合成、人脸识别与追踪、手势交互等算法整合为一套“AI拟人智能OS系统”,模拟自然人进行人机交互。
与传统的 AI 能力供应商不一样,天猫精灵是一家消费型智能设备企业,我们希望将这套算法能力开放给更多行业伙伴,打造出适用于各行各业的产品。
语音识别是一种通用能力,需要很多积累。我们在不同场景使用了很多不同的小模型,通过深度语音管理、融合性识别、个性化场景化识别以及自适应增强等技术,准确理解不同场景下的用户意图,最终实现更精准的文本输出。
天猫精灵提供了丰富的接入方式,支持安卓、Linux、RTOS三大操作系统,提供软硬一体的模组接入以及灵活的SDK/API。使用场景方面,目前支持市面上的全品类家电、全屋智能、可穿戴设备(手表、手环或眼镜)以及智能座舱。
视觉交互在座舱场景里使用较为广泛。
首先,视觉算法主要分为 5 大类,包括人脸、手势、动作识别、视觉认知以及文字识别,其中座舱与前面三类相关度较高。如果合作伙伴需要某一种特定的动作来触发某一项操作,也可以进行定制来实现。
视觉集成能力对上支撑了智能音箱、带屏设备、座舱、VR/AR 眼镜、智能家电、投影设备、学习平板等业务。
视觉方面采用了轻量化设计,主要以端侧为主,云端也会运行得更顺畅。另外,天猫精灵也实现了整套的数据隐私安全架构。
全球市场的新能源车道快速发展,带动了智能座舱的需求大幅提升。公开数据显示,中国的智能座舱在 2025 年将达到 1000 多亿的规模,其中AI 交互份额占10%- 15% 。
从消费者端来看,智能座舱已经成为购车的关键因素。根据行业调研显示,在中国消费者的购车因素中,智能座舱已经成为仅次于安全的第二大指标,重要程度超过了动力、价格、能耗等因素。
从车企端来看,传统车企利润较低,大约仅有3%-5%,且无法从后续服务中获利。但是变成一项软件服务之后,可以实现横向营收,可以持续为企业带来盈利。只要持续为用户输出良好的服务,软件服务公司的利润可以达到 15%-20% 。2021 年,小鹏的服务收入为 9. 46 亿元,毛利率 33.2% ,理想汽车服务收入 8. 8 亿元,毛利率达 44%。
毫无疑问,智能座舱已经成为车企的必选项,也是汽车行业非常重要的探索指标。
那么,天猫精灵能够联合创业伙伴为车企带来什么?
常规版:基于标准场景做出差异化,在行业趋同的情况下,利用猫精强大的研发能力,结合行业伙伴的积累,帮助车企做到同类应用体验更智能,实现成本更低,比如用领先的端计算优势实现“高实时低功耗”和“降低硬件成本”。比如有些车辆原本配置较低,无法运行智能化应用,而在天猫精灵的加持下可运行智能化应用。
进阶版:帮助车企“平地起飞”,最短的时间在语音车控和多模感知方面,赶上甚至超过行业领先水平
高级版:让一些真正有领先优势的高科技技术上车,为用户带来新奇体验,比如可交互数字人、原生座舱游戏等,帮助车企在科技体验方面领先1-2年。
很多时候,车企负责制造车辆,并且提供优异的设施,比如车机系统、计算平台、内饰、摄像头等,但是缺少内容,需要创业伙伴上台唱戏,填充相关内容,主要包括三大类的内容,分别为游戏、内容以及个性化服务。
当前车企所需要的是座舱的内容应用+更智能的交互。更智能的交互指语音、视觉、动物态等偏 AI 的能力,而这正是阿里云的强项。
天猫精灵车载智能监控方案的核心为智能、舒适、个性化。区别于传统的 AI 公司单纯输出算法,天猫精灵面向行业和创业伙伴输出完整的、成体系化的三方技能应用,双方协作,一起帮助智能服务上车。
大的 AI 厂商会综合考量合作方的项目体量来决定是否接单,而对于天猫精灵而言,只要项目合适,即可快速启动项目并落地。
天猫精灵具备三大综合算法优势:
● 天猫精灵拥有全套的自研算法体系,从精度到广度持续保持业界领先,并且持续不断打磨算法。
● 天猫精灵作为C端的智能音箱领军品牌,沉淀了丰富的交互与模型经验,可以快速从场景出发,解决用户的核心痛点。比如某车企要在智能座舱里打造一款多模交互的游戏,如果想要实现好的用户体验,则需要针对该款车的硬件配置、光线以及摄头等做算法的适配。找一家大厂全程参与打磨产品并不现实,需要花费较高的成本。而天猫精灵本身拥有一套快速的打磨产品的方式以及以用户为中心的理念,可以快速将想法落地。
● 整合输出拟人智能系统。将各种厂商的算法简单地拼凑在一起并不能实现1 + 1>2 的效果。而天猫精灵可以快速输出一整套搭配好的算法,可以快速接入,使车企专注于打磨新的硬件上层的多模交互应用。
天猫精灵希望与创业伙伴一起用领先的优势,帮助车企客户打造差异化的竞争力。
接下篇:https://developer.aliyun.com/article/1224762?groupCode=chuang