大模型元年,万能的淘宝有了万能AI

简介: 大模型元年,万能的淘宝有了万能AI



在刚刚过去的第15个天猫双11里,我们看到,在生成式AI等科技变革和消费行为习惯变迁的时代大背景下,淘宝正在变为新的“AI淘宝”。科技媒体《量子位》专访淘天集团相关的AI技术负责人,一起聊聊大模型和AIGC文生图两大技术路线在淘宝的融合创新,看看AI如何跨越从技术到应用的鸿沟,带来更好的消费体验。以下为采访内容全文——

今年双十一,除了买家卖家和平台,还多了第四种参与者:AI助手。淘宝天猫平台,商家在双11准备期及开卖期调用AI次数已超过15亿次。买家方面,AI助手淘宝问问的累计体验人次也超1000万,其中高活跃人群日均提问数超8次。最夸张的一条数据是“单一用户最多提问数超4000次”,这位是完全不动手找商品,买什么全听AI的了吗?

淘宝天猫这回各种AI应用,那是百花齐放。不知道买什么可以问AI,具体选哪款可以问AI,选好了怎么下单哪些活动实惠还可以问AI。这还没完,卖家快速开新店可以找AI,大批量上架商品可以找AI,投放广告还是可以找AI。……大模型爆发接近一年,不断改造着人们的工作和线上娱乐方式。而渗透进电商购物这一块,可以算是连接上了空间更为广阔的衣食住行等人们的线下生活。


AI购物新体验


AI助手淘宝问问,已经对所有淘宝用户开放,直接在搜索框输入「淘宝问问」就能直达

乍一看与其他聊天机器人产品类似,主体都是一个对话框。

实际上手体验才发现,它不仅懂商品,还懂你。

如果有优惠券要凑满减,就可以让AI推荐点凑单的零食。

无需在提问时附加额外的要求,它也能从历史订单、购物车等数据中推荐符合喜好的商品。

对于每款推荐的商品,AI都会总结好产品本身的特点、适合的人群或场合,以及推荐理由。接下来点击商品卡片,就可以直接选择规格、口味加入购物车了。除了直接提问,在淘宝问问里有一些内置好的功能模板。「用我挑商品」专治选择困难症,选择两个商品优缺点对比说的明明白白。「婚礼策划师」与「旅行策划人」、「资深导购员」都是专为相应场景优化,整体方案+每个环节商品推荐一口气呈现。「生活小能手」和「美食大人」,在解决日常问题的基础上又可以一键够齐所需材料。最后「灵魂写手」则是给喜欢分享购物体验的用户准备。这里展开介绍一下「用我挑商品」对比商品的玩法,从浏览记录或购物车中选择两件拿不准的商品。即使是不同品类的洗衣液和洗衣凝珠,AI都能帮你把异同分析得头头是道。当然如果是要对比衣服,到底怎么搭配好看,淘宝问问暂时还帮不到你。这时候就要请出另一个功能「淘宝试衣了,还是直接搜索就可找到。看好哪件点一下就可换装,可自己搭配上装下装或选择套装,堪称真人版奇迹暖暖。

涉及要与发型脸型体型腿型各种型搭配的,还可以上传自己的全身照片、设定自己的身高体重来代替AI模特,不出门不花钱就能在线试穿上千万种。可以点击对比按钮,与自己拍照时的状态反复对比,也是很实用的玩法。除了上面展开介绍的这些,淘宝天猫还准备了「我的萌宠,通过AIGC技术为你的宠物制作数字分身。「极有家,上传房间照片,在线设计装修方案等更多玩法。都是在搜索栏搜索直达,篇幅有限,就留给感兴趣的读者自己去体验了。商家也有了专门的「淘宝商家智能经营工具」,从上传第一个商品照片开始,店铺起名、生成Logo、仅靠张图片自动识别商品属性、上架、到店铺装修,一气呵成,节省大量人工操作。

,时长01:30

此外还有商品素材任意扩展尺寸功能,适应各种展示场合,大幅降低素材加工成本,避免人力返工。

最终从复盘数据来看,今年双11是新品牌、新商家、中小商家参与最多的一届。

按往常来说,对于平台功能不熟悉、操作不熟练会带来不少麻烦,但今年在新技术的加入下,彻底把经营店铺的门槛降低了。

淘宝商家智能经营工具线不足半月,即为女装服饰商家提供了10w+次AI发品服务,发品时长较传统发品降低25%。

基于大语言模型技术研发的中心化电商经营Copilot,开启内测后也为数万商家提供了经营知识问答、经营工具调用、文案生成等多种经营辅助能力,目前已经为商家经营提效超50w次。

基于大语言模型技术研发的中心化电商经营Copilot,开启内测后也为数万商家提供了经营知识问答、经营工具调用、文案生成等多种经营辅助能力,目前已经为商家经营提效超50w次。


AI技术在电商领域的首次大规模应用


算起来,ChatGPT发布接近一周年,AIGC文生图的兴起还要更早一些。

这期间每一次技术突破,都掀起一波创业或改造已有业务的浪潮。直到今年双十一期间,AI在电商领域终于实现大规模应用,意义非比寻常:

不仅用于企业内部流程,还要面向终端用户。而且是一次面对买家和卖家两种特点、需求都截然不同的终端用户。

这其中涉及大模型和AIGC文生图两大技术路线的融合创新,可以观察到AI如何跨越从技术到应用的鸿沟,也能为更多行业带来启示。

先说更早兴起的AIGC文生图。2022年8月Stable Diffusion开源、算力需求小,开启了AIGC商业化的序幕。

但Stable Diffusion的弱点也很快在实践中暴露出来:

首先是生成的图像不可控问题,特别是淘宝天猫所在的电商领域,对商品主体的呈现准确性要求极高。

其次是使用复杂,复杂的提示词技巧就不好掌握,众多需要调节的参数更是增加了学习成本。

转机很快出现,转过年来1月份,ControlNet横空出世,巧妙的通过添加辅助条件引导生成,一定程度上解决可控性问题,被誉为“改变游戏规则”。

这时,高手已经可以用Stable Diffusion+ControlNet的组合来指定生成图像的细节了,如人物姿态、整体布局等,相当于提升了AIGC文生图的上限。

但对于淘宝天猫要服务的众多普通用户而言,这些引导方式的理解和使用成本依然很高。

23年8月,一项新技术IP-Adapter出现,再次把稳定按需生成图像的门槛降低。IP-Adapter相当于开辟了“用图像当提示词”的新方法,也可以当成ControlNet中的一个引导条件。这样一来,电商卖家在文生图流程中利用好现成的商品照片即可,无需再学习掌握提示词技巧或其他专业制图知识,相当于进一步提升了AIGC的下限。

解决了基本的实用性问题,更深层次的需求又凸显出来。Stable Diffusion属于预训练模型,对世界的理解主要来自训练阶段的数据。而电商领域又是快速变化的,每天都会上新大量商品,需要AI能不断更新、持续学习。这时,来自大语言模型的快速微调技术LoRA就派上用场,借鉴到AIGC文生图领域被当做“知识/概念注入”的方法。具体来说,LoRA在微调时会冻结模型的大部分权重,仅更新一小部分。同时更新后的权重还可单独分离出来,每个只有几十到上百MB大小。在淘宝天猫的实践中,LoRA相当于为商品和模特构建了数字分身,为商家沉淀数字资产,可以进一步生成更加丰富多样的商品或模特图。把LoRA加入流程后,又出现生成可控比较差的问题。如何让LoRA生成的模特在像与美之间取得平衡,如何让基于LoRA生成的商品精准还原商品细节,都是需要进一步解决的应用挑战。此外淘宝天猫还在探索不用训练即可将商品概念用于图像生成的全新知识注入技术,直接在推理阶段提供商品图片即可,极大降低知识注入技术的应用成本,提升实时性。AIGC要大规模应用,光是围绕图像生成模型Stable Diffusion本身的增强改造就有这么多。但实际工作流程中,为了大幅降低生图操作的复杂度,还有大量工作需要完成。比如针对电商领域对商品主体必须准确呈现的需求,又加入了SAM分割万物分模型,先把商品主体分离,再与AI生成的环境背景部分适配融合。这样一来确保了商品主体的准确呈现,避免出现“货不对版”,又能使商品主体与背景无缝融合, 让光影看起来没有破绽,有放置物感。接下来还要结合局部细节修复、超分辨率、增加滤镜等多个环节提高图像质量,达到商用级别水准。

AIGC应用如此,大模型在电商领域走向大规模应用的历程同样困难重重。

特别是淘宝天猫要做的不是纯粹的专业模型,而是一个有很强专业领域能力的通用模型,以解析淘宝用户长尾的自然语言问题,理解更加精准的用户意图。

要实现这一点,在通用模型的基础上首先要增加电商专业知识,在多年积累的电商行业数据中训练。

但此时通用大模型还在根据输入续写文本,比如当用户提出一个问题,模型很有可能按格式补充多个类似问题,而不是回答这个问题。

行业中解决这个问题的方法AI与人类偏好对齐。SFT(指令微调)让大模型学会如何完成用户的指令,RLHF(人类反馈强化学习)让大模型学会什么样的回答满足人类偏好。在淘宝天猫的实践中,还加入了产品上线后不断迭代用户的反馈偏好。

接下来要解决的是大模型回答中的,业内称为“幻觉问题”。对此,淘宝天猫技术团队从模型内外两方面,双管齐下去解决。

模型内,也就是在模型训练阶段就引入大量电商行业数据。

模型外,通过RAG(检索增强生成)技术,针对不同的问题,调用不同的知识库,获取实时更新的商品信息。

更进一步的,针对需要实时调用外部工具的问题,淘宝天猫技术团队利用Tool learning技术,优化大模型理解工具、选择工具和调用工具的能力,并提供可解释的工具调用路径,使回答内容更准确,回答形式更加丰富。

比如淘宝问问里用户的一次普通查询,不仅调用了大模型生成能力,还调用了淘宝商品推荐能力和内容社区的视频推荐能力。更复杂的场景如旅行策划,还会调用合作伙伴飞猪的机酒预订能力。

最终,以淘宝问问为代表的一系列大模型产品,在大模型基础上有意图识别、任务规划、记忆和使用外部工具能力,正朝着Agent(智能体)的方向发展,也就是大模型行业必争的下一个阶段。


双十一大考,AI成绩如何?


以往每年双十一,对技术、工程来说都是一轮大考。今年对AI的加入来说,更增添了一层初次实战检验的味道。

现在,淘宝天猫集团这一波AI成果,是不是也代表着一些明确的新趋势?

首先,AI技术创新拓展了电商的边界,增加了可能性。

购物从需要明确知道要买什么,去搜索。变成了只要有需求,都可以询问AI。

即使之前不知道该买什么或者根本不认为能通过购买商品解决的需求,都可能由AI为你推荐出来。

其次,AI技术创新改进了商家的工作方式和生产效率。

与买家的情况相似但又不同,卖家被AI推荐的则是后台功能、经营工具

以往商家使用淘宝天猫商家后台的千牛工作台,有不低的学习成本,功能太丰富,很多不知道在哪,甚至不知道某个功能的存在。

AI加持下,也变成了店铺经营过程中有任何需求就可以找AI,让AI定位到合适的功能,或通过RAG技术解答商家的问题。

最后,双十一虽已过去,但留下大量与AI交互后的宝贵经验和数据。

淘宝天猫集团本就拥有完整的电商行业数据、行业经验,并凭借其打造出规模化的AI产品,双十一期间产生大量用户反馈数据,又可以再投入到算法改进,最终形成滚雪球效应。

OpenAI开发者日标志着AI行业越来越卷,YC创始人Paul Graham给提出建议,若要在竞争中不被淘汰,需要做到:

  1. 不仅依赖AI,还依赖于特定领域的深厚领域知识
  2. 与终端用户建立非常密切的关系

而这两点,恰好也是淘宝天猫集团天生所擅长的。

在AIGC行业有个说法,“AI一天,人间一年”,期待明年618、双十一,AI又能给我们带来什么购物新体验。

相关文章
|
15天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
73 12
|
1天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
14天前
|
人工智能 安全 数据安全/隐私保护
文档智能 & RAG让AI大模型更懂业务测评
文档智能 & RAG让AI大模型更懂业务
142 73
|
4天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
52 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
1天前
|
机器学习/深度学习 人工智能 智能设计
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。
22 4
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。
95 14
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
|
13天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
64 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
15天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
56 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
15天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
56 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
13天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营