大模型元年，万能的淘宝有了万能AI-阿里云开发者社区

在刚刚过去的第15个天猫双11里，我们看到，在生成式AI等科技变革和消费行为习惯变迁的时代大背景下，淘宝正在变为新的“AI淘宝”。科技媒体《量子位》专访淘天集团相关的AI技术负责人，一起聊聊大模型和AIGC文生图两大技术路线在淘宝的融合创新，看看AI如何跨越从技术到应用的鸿沟，带来更好的消费体验。以下为采访内容全文——

今年双十一，除了买家卖家和平台，还多了第四种参与者：AI助手。淘宝天猫平台，商家在双11准备期及开卖期调用AI次数已超过15亿次。买家方面，AI助手淘宝问问的累计体验人次也超1000万，其中高活跃人群日均提问数超8次。最夸张的一条数据是“单一用户最多提问数超4000次”，这位是完全不动手找商品，买什么全听AI的了吗？

淘宝天猫这回各种AI应用，那是百花齐放。不知道买什么可以问AI，具体选哪款可以问AI，选好了怎么下单哪些活动实惠还可以问AI。这还没完，卖家快速开新店可以找AI，大批量上架商品可以找AI，投放广告还是可以找AI。……大模型爆发接近一年，不断改造着人们的工作和线上娱乐方式。而渗透进电商购物这一块，可以算是连接上了空间更为广阔的衣食住行等人们的线下生活。

AI购物新体验

AI助手淘宝问问，已经对所有淘宝用户开放，直接在搜索框输入「淘宝问问」就能直达。

乍一看与其他聊天机器人产品类似，主体都是一个对话框。

实际上手体验才发现，它不仅懂商品，还懂你。

如果有优惠券要凑满减，就可以让AI推荐点凑单的零食。

无需在提问时附加额外的要求，它也能从历史订单、购物车等数据中推荐符合喜好的商品。

对于每款推荐的商品，AI都会总结好产品本身的特点、适合的人群或场合，以及推荐理由。接下来点击商品卡片，就可以直接选择规格、口味加入购物车了。除了直接提问，在淘宝问问里有一些内置好的功能模板。「用我挑商品」专治选择困难症，选择两个商品优缺点对比说的明明白白。「婚礼策划师」与「旅行策划人」、「资深导购员」都是专为相应场景优化，整体方案+每个环节商品推荐一口气呈现。「生活小能手」和「美食大人」，在解决日常问题的基础上又可以一键够齐所需材料。最后「灵魂写手」则是给喜欢分享购物体验的用户准备。这里展开介绍一下「用我挑商品」对比商品的玩法，从浏览记录或购物车中选择两件拿不准的商品。即使是不同品类的洗衣液和洗衣凝珠，AI都能帮你把异同分析得头头是道。当然如果是要对比衣服，到底怎么搭配好看，淘宝问问暂时还帮不到你。这时候就要请出另一个功能「淘宝试衣」了，还是直接搜索就可找到。看好哪件点一下就可换装，可自己搭配上装下装或选择套装，堪称真人版奇迹暖暖。

涉及要与发型脸型体型腿型各种型搭配的，还可以上传自己的全身照片、设定自己的身高体重来代替AI模特，不出门不花钱就能在线试穿上千万种。可以点击对比按钮，与自己拍照时的状态反复对比，也是很实用的玩法。除了上面展开介绍的这些，淘宝天猫还准备了「我的萌宠」，通过AIGC技术为你的宠物制作数字分身。「极有家」，上传房间照片，在线设计装修方案等更多玩法。都是在搜索栏搜索直达，篇幅有限，就留给感兴趣的读者自己去体验了。商家也有了专门的「淘宝商家智能经营工具」，从上传第一个商品照片开始，店铺起名、生成Logo、仅靠张图片自动识别商品属性、上架、到店铺装修，一气呵成，节省大量人工操作。

，时长01:30

此外还有商品素材任意扩展尺寸功能，适应各种展示场合，大幅降低素材加工成本，避免人力返工。

最终从复盘数据来看，今年双11是新品牌、新商家、中小商家参与最多的一届。

按往常来说，对于平台功能不熟悉、操作不熟练会带来不少麻烦，但今年在新技术的加入下，彻底把经营店铺的门槛降低了。

淘宝商家智能经营工具线不足半月，即为女装服饰商家提供了10w+次AI发品服务，发品时长较传统发品降低25%。

基于大语言模型技术研发的中心化电商经营Copilot，开启内测后也为数万商家提供了经营知识问答、经营工具调用、文案生成等多种经营辅助能力，目前已经为商家经营提效超50w次。

AI技术在电商领域的首次大规模应用

算起来，ChatGPT发布接近一周年，AIGC文生图的兴起还要更早一些。

这期间每一次技术突破，都掀起一波创业或改造已有业务的浪潮。直到今年双十一期间，AI在电商领域终于实现大规模应用，意义非比寻常：

不仅用于企业内部流程，还要面向终端用户。而且是一次面对买家和卖家两种特点、需求都截然不同的终端用户。

这其中涉及大模型和AIGC文生图两大技术路线的融合创新，可以观察到AI如何跨越从技术到应用的鸿沟，也能为更多行业带来启示。

先说更早兴起的AIGC文生图。2022年8月Stable Diffusion开源、算力需求小，开启了AIGC商业化的序幕。

但Stable Diffusion的弱点也很快在实践中暴露出来：

首先是生成的图像不可控问题，特别是淘宝天猫所在的电商领域，对商品主体的呈现准确性要求极高。

其次是使用复杂，复杂的提示词技巧就不好掌握，众多需要调节的参数更是增加了学习成本。

转机很快出现，转过年来1月份，ControlNet横空出世，巧妙的通过添加辅助条件引导生成，一定程度上解决可控性问题，被誉为“改变游戏规则”。

这时，高手已经可以用Stable Diffusion+ControlNet的组合来指定生成图像的细节了，如人物姿态、整体布局等，相当于提升了AIGC文生图的上限。

但对于淘宝天猫要服务的众多普通用户而言，这些引导方式的理解和使用成本依然很高。

23年8月，一项新技术IP-Adapter出现，再次把稳定按需生成图像的门槛降低。IP-Adapter相当于开辟了“用图像当提示词”的新方法，也可以当成ControlNet中的一个引导条件。这样一来，电商卖家在文生图流程中利用好现成的商品照片即可，无需再学习掌握提示词技巧或其他专业制图知识，相当于进一步提升了AIGC的下限。

解决了基本的实用性问题，更深层次的需求又凸显出来。Stable Diffusion属于预训练模型，对世界的理解主要来自训练阶段的数据。而电商领域又是快速变化的，每天都会上新大量商品，需要AI能不断更新、持续学习。这时，来自大语言模型的快速微调技术LoRA就派上用场，借鉴到AIGC文生图领域被当做“知识/概念注入”的方法。具体来说，LoRA在微调时会冻结模型的大部分权重，仅更新一小部分。同时更新后的权重还可单独分离出来，每个只有几十到上百MB大小。在淘宝天猫的实践中，LoRA相当于为商品和模特构建了数字分身，为商家沉淀数字资产，可以进一步生成更加丰富多样的商品或模特图。把LoRA加入流程后，又出现生成可控比较差的问题。如何让LoRA生成的模特在像与美之间取得平衡，如何让基于LoRA生成的商品精准还原商品细节，都是需要进一步解决的应用挑战。此外淘宝天猫还在探索不用训练即可将商品概念用于图像生成的全新知识注入技术，直接在推理阶段提供商品图片即可，极大降低知识注入技术的应用成本，提升实时性。 AIGC要大规模应用，光是围绕图像生成模型Stable Diffusion本身的增强改造就有这么多。但实际工作流程中，为了大幅降低生图操作的复杂度，还有大量工作需要完成。比如针对电商领域对商品主体必须准确呈现的需求，又加入了SAM分割万物分模型，先把商品主体分离，再与AI生成的环境背景部分适配融合。这样一来确保了商品主体的准确呈现，避免出现“货不对版”，又能使商品主体与背景无缝融合，让光影看起来没有破绽，有放置物感。接下来还要结合局部细节修复、超分辨率、增加滤镜等多个环节提高图像质量，达到商用级别水准。