阿里云创新手册-天猫精灵专场-天猫精灵智能座舱AI能力开放合作交流(上)

简介: 阿里云创新手册-天猫精灵专场-天猫精灵智能座舱AI能力开放合作交流

作者:李大鹏,阿里云人工智能行业产品专家


一、天猫精灵对话

image.png

 

天猫精灵作为个智能音箱品牌,覆盖了超过 4000 多万家庭用户,拥有 5000 多项服务技能,AIoT合作厂商超过 1000 家,拥有超 3. 5 亿的可连接设备以及1600+品牌的智能产品同时,天猫精灵打造了一套AIGenie系统,包含软件、硬件以及相关的 AI 能力,诞生了云端一体的新的 AIoT 产品。

 

image.png 

 

智能音箱包含智能硬件两部分。

 

人工智能包括语音语义能力视觉能力交互能力等,全部由天猫精灵自研。比如语音能力包括了唤醒语音的识别声纹语音的合成视觉能力座舱被广泛使用,包括图像识别人脸识别手势识别交互能力包括多模态交互辨别手势等。除了语音语义能力之外,也提供了通话购物游戏音视频百科知识库等能力

 

相关的硬件产品包括X系列、方糖系列、QUEEN系列等

 

image.png 

 

AIoT领域,天猫精灵实现了十分强大的布局可以提供一站式的语音开发能力、IoT设备控制能力、AI算法集成能力以及数字内容变现能力。

 

image.png 

 

天猫精灵将语音识别、自然语言理解、语音合成、人脸识别与追踪、手势交互等算法整合为一套“AI拟人智能OS系统”,模拟自然人进行人机交互。

 

传统的 AI 能力供应商不一样,天猫精灵是一家消费型智能设备企业,我们希望这套算法能力开放给更多行业伙伴,打造出适用于各行各业的产品

 

image.png 

 

语音识别是一种通用能力,需要很多积累。我们在不同场景使用了很多不同的小模型,通过深度语音管理、融合性识别、个性化场景化识别以及自适应增强等技术,准确理解不同场景下的用户意图,最终实现更精准的文本输出

 

天猫精灵提供了丰富的接入方式,支持安卓、Linux、RTOS三大操作系统,提供软硬一体的模组接入以及灵活的SDK/API使用场景方面,目前支持市面上的全品类家电全屋智能可穿戴设备手表手环眼镜以及智能座舱。

 

image.png

 

视觉交互在座舱场景使用较为广泛

 

首先,视觉算法主要分为 5 大类,包括人脸、手势、动作识别、视觉认知以及文字识别,其中座舱与前面三类相关度较高。如果合作伙伴需要某一种特定的动作来触发某一项操作,也可以进行定制来实现

 

视觉集成能力对上支撑了智能音箱带屏设备座舱VR/AR 眼镜智能家电投影设备学习平板等业务。

 

视觉方面采用了轻量化设计,主要以端侧为主,云端也会运行得更顺畅。另外天猫精灵也实现了整套的数据隐私安全架构。

 

image.png 

 

全球市场的新能源车道快速发展,带动了智能座舱的需求大幅提升。公开数据显示,中国的智能座舱在 2025 年达到 1000 多亿的规模,其中AI 交互份额10%- 15% 。

 

从消费者端来看,智能座舱已经成为购车的关键因素。根据行业调研显示,在中国消费者购车因素中智能座舱已经成为仅次于安全的第二大指标,重要程度超过了动力、价格、能耗因素。

 

从车企端来看传统车企利润较低,大约仅有3%-5%,且无法从后续服务中获利。但是变成一项软件服务之后,可以实现横向营收可以持续为企业盈利。要持续用户输出良好的服务软件服务公司的利润可以达到 15%-20%2021 年,小鹏的服务收入 9. 46 亿元,毛利率 33.2% ,理想汽车服务收入 8. 8 亿元,毛利率达 44%。

 

毫无疑问,智能座舱已经成为车企的必选项,也是汽车行业非常重要的探索指标。

 

那么,天猫精灵能够联合创业伙伴为车企带什么

 

常规版基于标准场景做出差异化,在行业趋同的情况下,利用猫精强大的研发能力,结合行业伙伴的积累,帮助车企做到同类应用体验更智能实现成本更低,比如用领先的端计算优势实现“高实时低功耗”和“降低硬件成本”比如有些车辆原本配置较低,无法运行智能化应用,而在天猫精灵的加持下可运行智能化应用。

 

进阶版帮助车企“平地起飞”,最短的时间在语音车控和多模感知方面,赶上甚至超过行业领先水平

 

高级版让一些真正有领先优势的高科技技术上车,为用户带来新奇体验,比如可交互数字人、原生座舱游戏等,帮助车企在科技体验方面领先1-2年

 

image.png 

 

很多时候,车企负责制造车辆,并且提供优异的设施,比如车机系统、计算平台、内饰摄像头,但是缺少内容,需要创业伙伴上台唱戏,填充相关内容主要包括三大类的内容分别为游戏、内容以及个性化服务。

 

当前车企所需要的是座舱的内容应用+更智能的交互更智能的交互语音、视觉、动物态偏 AI 的能力,而这正是阿里云的强项。

image.png 

 

天猫精灵车载智能监控方案的核心为智能、舒适、个性化。区别于传统的 AI 公司单纯输出算法,天猫精灵面向行业创业伙伴输出完整的、成体系化的三方技能应用,双方协作,一起帮助智能服务上车。

 

大的 AI 厂商会综合考量合作方的项目体量来决定是否接单,而对于天猫精灵而言,只要项目合适,即可快速启动项目并落地。

 

image.png 

天猫精灵具备三大综合算法优势:

 

天猫精灵拥有全套的自研算法体系,从精度到广度持续保持业界领先,并且持续不断打磨算法。

天猫精灵作为C端的智能音箱领军品牌,沉淀了丰富的交互模型经验,可以快速从场景出发,解决用户的核心痛点。比如某车企要在智能座舱里打造一款多模交互的游戏,如果想要实现好的用户体验,则需要针对该款车的硬件配置、光线以及摄头做算法的适配。找一家大厂全程参与打磨产品并不现实,需要花费较高的成本。而天猫精灵本身拥有一套快速的打磨产品的方式以及以用户为中心的理念,可以快速想法落地。

整合输出拟人智能系统。将各种厂商的算法简单地拼凑在一起并不能实现1 + 1>2 的效果。而天猫精灵可以快速输出一整套搭配好的算法,可以快速接入,使车企专注于打磨新的硬件上层的多模交互应用。

 

天猫精灵希望与创业伙伴一起用领先的优势,帮助车企客户打造差异化的竞争力。

 

接下篇:https://developer.aliyun.com/article/1224762?groupCode=chuang

相关文章
|
7天前
|
人工智能 自然语言处理 安全
【2025】世界顶级AI模型本地部署私有化完整版教程 DeepSeek-R1+Ollama+ChatboxAI合体,瞬间升级你的个人电脑秒变智能神器!
震撼发布!让你的电脑智商飙升,DeepSeek-R1+Ollama+ChatboxAI合体教程,打造私人智能神器!
258 42
【2025】世界顶级AI模型本地部署私有化完整版教程 DeepSeek-R1+Ollama+ChatboxAI合体,瞬间升级你的个人电脑秒变智能神器!
|
3天前
|
人工智能 JavaScript 测试技术
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
通义灵码 2.0 是阿里云基于通义大模型推出的先进开发工具,具备代码智能生成、研发问答、多文件修改和自主执行等核心功能。本文通过亲身体验,展示了其在新功能开发、跨语言编程和单元测试生成等方面的实际效果,并对比了 1.0 版本的改进。结果显示,2.0 版在代码生成完整度、跨语言支持和单元测试自动化上有显著提升,极大提高了开发效率,但仍需进一步优化安全性和个性化风格。推荐指数:⭐⭐⭐⭐⭐。
|
3天前
|
人工智能 JavaScript 测试技术
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
**通义灵码 2.0 体验报告:AI 赋能智能研发的新范式** 本文详细评测了阿里云推出的通义灵码 2.0,基于通义大模型,提供代码智能生成、研发问答、多文件修改等核心能力。通过亲身体验,探讨其在新功能开发、跨语言编程、单元测试生成等场景的实际效果,并对比1.0版本的改进点。结果显示,2.0版本在代码生成完整性、自动化程度及跨语言支持方面有显著提升,但也存在安全性优化和个性化风格调整的空间。推荐指数:⭐⭐⭐⭐⭐。 (239字)
|
5天前
|
人工智能 JSON 自然语言处理
AI 程序员的4个分身 | 代码生成专家+注释精灵+API集成助手+智能调试伙伴
AI 程序员的4个分身 | 代码生成专家+注释精灵+API集成助手+智能调试伙伴
111 35
|
18天前
|
机器学习/深度学习 人工智能 运维
AI辅助的运维风险预测:智能运维新时代
AI辅助的运维风险预测:智能运维新时代
126 19
AI辅助的运维风险预测:智能运维新时代
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。
172 16
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
|
1月前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1949 27
通义灵码2.0全新升级,AI程序员全面开放使用
|
29天前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
199 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
7天前
|
机器学习/深度学习 人工智能 监控
AI视频监控在大型商场的智能技术方案
该方案通过目标检测与姿态识别技术(如YOLO、OpenPose),实时监控顾客行为,识别异常动作如夹带物品、藏匿商品等,并结合AI模型分析行为模式,防止偷窃。出口处设置结算验证系统,比对结算记录与视频信息,确保商品全部支付。多角度摄像头和数据交叉验证减少误报,注重隐私保护,提升安保效率,降低损失率,增强顾客信任。
45 15
|
1月前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
219 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用