AI大模型,智能汽车的下一个战场?

简介: AI大模型,智能汽车的下一个战场?

ChatGPT走红后,大模型的热度持续不减,并日渐形成了“千模大战”的局面。前两个月,百度、阿里、腾讯加入;进入5月份,先有网易有道,发布了基于“子曰”大模型开发的AI口语老师剧透视频,介绍其基于教育场景的类ChatGPT产品;后有科大讯飞,发布认知大模型“讯飞星火”……总之,各种大大小小的发布会,都在向外界证明自己到底有多大的想象空间。

在大模型进展如火如荼之下,其产业化也被越来越多地提及,从前炒作的“AI+”也再次站上风口。在此背景下,关于AI大模型在汽车领域的应用,也开始热度飙升。

智能汽车的“ChatGPT时刻”来了

目前来看,大模型重构各行各业虽然已经成为业界共识,但ChatGPT“上车”远比预想中的来得更快。作为继家庭和办公场所之外的“第三空间”,汽车正在变成一个新型智能终端。ChatGPT到来了之后,车机关系也受到了更多的影响。

一是ChatGPT对汽车自动驾驶的影响。业内人士分析表示,大模型具备对海量数据的处理能力以及多维度分析能力,可以提供更精准、更全面的数据分析和预测能力,持续优化模型,提高智能驾驶的准确性和可靠性。尤其是随着ChatGPT的出现,人们发现当模型的参数量,达到了一定程度之后,呈现出的效果不是“性能变好”,而是“出奇的好”。

具体到应用层面,大模型对自动驾驶的影响是:在云端,车企可以发挥模型参数量的大容量优势,通过大模型完成绝大多数的数据标注和数据挖掘工作,节省数据标注成本,还能够借助仿真场景构建赋能。在车端,它可以将分管不同子任务的小模型合并为一个大模型,节省车端推理计算时间,增加汽车安全性。最重要的是,被认为是自动驾驶算法终局的端到端感知决策一体化算法瓶颈,或许在汽车接入大模型之后可以得到有效解决,自动驾驶算法升级指日可待。

二是对汽车智能座舱的影响。车载ChatGPT语音助手,可以处理完整的对话,比如追问,并能保持对前后文的理解,形成较为良好的语音交互体验。比如,微软与梅赛德斯—奔驰探索ChatGPT的插件生态系统,为第三方服务集成开辟可能性。驾驶员未来有望通过车载系统完成预订餐厅、预订电影票等任务,进一步提升便利性和生产力,极大地丰富智能汽车与人之间的交互体验。

另外,在改变智能驾驶和智能座舱交互能力的情况下,其也对汽车的研发方式和商业模式产生全新的影响。研发方式方面,由于机器的高效标注能力,使得需要一年时间的数据标注任务,现在只需要短短数小时,研发周期大幅缩短,而且多模态(视觉、语音、手势等)的丰富数据,更可以进一步提升总体的研发效能,降低研发成本。就商业模式而言,车载AI语音交互在它具备情感智能之后,它就会从“雇佣关系”演变成“陪伴关系”,对人的喜好和习惯会更加了解,这将会衍生出全新的商业价值。

产业探索流派纷呈

或许正是意识到了这一点,现在正有越来越多的车企选择接入AI大模型。除了国外的奔驰宣布ChatGPT之外,国内理想汽车也发布了自研大模型MindGPT,百度的文心一言也被接入到了长安、吉利、岚图、红旗、零跑等众多车企之中,就连“让梦想窒息”的法拉利未来,也在新车中纳入了大模型,不难预见未来大模型在智能汽车中普及,将会是大概率事件。从整个参与的车企来看,其发展大模型的方向和侧重点并不相同。

从功能上来看其主要可以分为以下两类:一类是用于人工智能交流对话领域,多数应用在智能座舱上。比如,百度的文心一言,目前已经有东风日产、红旗、长城等近十家车企宣布接入;上海车展期间,商汤科技亮相了日日新Sensenova大模型,展示了其中文语言模型“商量SenseChat”以及“如影SenseAvatar”等与座舱的结合;此前阿里巴巴也宣布AliOS智能汽车操作系统,已接入通义千问大模型进行测试等。

另一类是聚焦智能驾驶的大模型应用。比如毫末智行发布了自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题,最终实现端到端的自动驾驶。理想汽车自研大模型MindGPT,摆脱对高清地图的依赖,让汽车做到更接近人类司机的驾驶表现。蔚来、小鹏、长城、奇瑞四家车企,也已经注册申请了多个与GPT相关的商标。

从参与主体来看,也主要可以分为两类:一是车企亲自下场做的,如理想汽车、百度将自家大模型应用于自家汽车产品等;另一类是外部厂商提供大模型给车企,比如华为盘古大模型、百度文心一言等用于给其他车企使用。

相较通用大模型来说,垂直领域的大模型训练和使用成本更低,或许会成为更容易实现商业化落地的领域。业内人士分析称,汽车有着明确的交互需求,且相较于通用大模型,垂直领域的应用场景相对较小,对参数的量级要求也没有通用型AI那么大。因此,无论是传统车厂还是新势力,抑或是大模型科技厂商,普遍认为智能汽车最有可能成为率先实现大模型落地的B端场景。

大模型规模上车时机尚未成熟

目前来看,尽管ChatGPT的首发“上车”,已经拉开了智能汽车领域大模型较量的序幕。但现阶段距离大模型的真正规模上车,也还有一段距离。

首先,车企做大模型,多模态数据的收集、处理、训练本身是一个难题。自动驾驶所需传感器数据包括激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、GPS等。这些数据来自不同的坐标系,带有不同的触发时间戳,且要考虑到硬件损坏等问题;同时,需要大量的场景数据,比如交通标志线、交通流、行为模型等。这让汽车大模型的研发、训练门槛变得很高。

业内人士认为,模型数据调动管理需要利用智能网联汽车以及计算技术平台、云控技术平台等诸多平台,只有做到海量数据汇聚才可以做交叉,尤其是垂直领域,这和车内的其他系统并不相同,假如基础的平台能力不能打通,其很难向更深层次发展。另外,尽管生成式AI在信息获取上获得了突破,但在决策、执行控制层面,其离真正在汽车上落地还有较大的距离。

另外,端到端的AI大模型训练,需要在智能汽车中构建全新的基于AI大模型的全新算法,这也需要一个过程,业内人士认为至少需要3—5年甚至更长的时间,来完成这一过程。

其次,受限于车载设备的硬件条件,汽车内大模型所需要的硬件配置可能会受到限制,难以有效发挥好作用。具体来说,大模型需要高规格的硬件配置,包括高性能计算能力、大容量内存和低时延等特点,但车载设备的硬件条件相对有限,无法提供足够的算力资源支撑大模型运行。比如,在自然语言处理领域的GPT-3模型,就需要数万亿TOPS的计算能力。这要求芯片的算力至少要在万级TOPS以上,才能够胜任大模型的计算任务。但是在车载部署场景下,芯片的算力往往只有数百TOPS,远远达不到大型模型的要求。

在此背景下,升级汽车内的算力基础设施已成必然趋势,目前来看智算中心或许会成为未来智能汽车的“标配”。比如,特斯拉发布了独立的云端智算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。在国内,小鹏汽车与阿里云合建了智算中心“扶摇”,专门用于自动驾驶模型训练,算力可达到600PFLOPS;毫末智行与火山引擎联合打造了国内自动驾驶行业最大的智算中心“雪湖.绿洲”,每秒浮点运算可达到67亿亿次。不过,目前这些建设还处于探索应用阶段,大模型应用大规模上车的时机,还没有完全成熟。

底层技术才是未来角逐焦点

目前来看,AI大模型对汽车最本质的改变,可能在于它将进一步驱动汽车,从制造属性向科技+消费电子属性转变。在这种背景下,车厂本身的底层科技能力,将会成为未来的决胜关键。

一方面,AI大模型会重新定义“人机交互”和“服务生态”,加速汽车应用服务生态消费电子化,这将改变底层的产品定义。当前车载语音系统底层是未完全成熟的任务型对话系统,尚无法真正实现个性化、情感化、自由化的交互能力,而大模型可以通过深度学习+语音生成,迎来开放场景+自然交互的全新人机交互体验。同时,在研发设计上,随着大模型的OS化,传统的APP上车、点触功能、HMI交付的必要性和重要性值得思考,这意味着汽车“产品”的重新定义。

正如前华为自动驾驶产品部部长苏箐所言:“传统车厂看法首先我的基座是车,现在有些计算机的单点,那么我是把车作为一个基础,试图把计算机嵌进去,这是传统车厂的看法。我们的看法不一样,基础是计算机,车是计算机控制的外设,一个大计算机了事,把车挂上去。这是本质看法不一样。”事实上,在大模型上车之后,汽车的计算中心、智能化、消费电子属性将变得更加明显,其产品定义将遵循消费电子的底层逻辑迭代演变(如APP化、生态服务等)。

另一方面,AI大模型将会改变汽车的现有算法,考虑到大模型应用所需要的硬件成本以及外部环境来看,未来国内企业大模型的技术实力,将更加取决于包括AI操作系统等在内的底层技术。具体来说,原来汽车的自动驾驶算法较为依赖人工,而接入大模型之后,就需要依靠大模型驱动形成新的智能算法,而要构筑这样的算法,除了要做好产品,还要做好平台。

比如,围绕芯片、云端等在内的计算平台,需要做到低成本、可标配;有了好的产品,才能够有足够多的销量,有足够多的销量,才能增加“端到端”(云端到车端)的闭环数据;作为基础支撑的AI大算力芯片,也需要重新考虑车企自身的情况来做,回到底层来说就是谁的训练成本低,谁的转化速度快,谁就将跑到最前面。

拿英伟达的训练芯片来说,一枚芯片被炒到了10万块钱,关键是这种高成本芯片训练方案,对于车企并非最优解决办法。而且受外部制裁影响,这种“外供依赖”随时有可能被掐掉,脆弱性很大。因而从长远来看,车企想要在这一领域走到行业前列去,要么加大对底层芯片的自研力度以减少采购成本,如百度自研AI芯片,要么在AI算法、操作系统上去寻求破局,以找到最佳的应用路径。

目录
相关文章
|
4天前
|
人工智能 移动开发 前端开发
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。
232 66
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
|
2天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
14天前
|
人工智能 安全 数据安全/隐私保护
文档智能 & RAG让AI大模型更懂业务测评
文档智能 & RAG让AI大模型更懂业务
142 73
|
4天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
52 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
14天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
101 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
1天前
|
机器学习/深度学习 人工智能 智能设计
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。
22 4
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
|
14天前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
70 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
|
9天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。
95 14
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
|
13天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
64 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题