看阿里妈妈如何在数智商业技术新时代把握生成式大模型引领的这股 AI 浪潮。
2023 年已经过半,可以说是属于生成式 AI 大模型的一年。自 ChatGPT 推出以来,这股新的 AI 技术浪潮迅速席卷了国内外。尤其是国内,科技大厂、初创公司和科研机构陆续推出了近百个通用或特定领域专属大模型及应用产品。
随之而来,行业企业也寻求自身业务场景与相关 AI 技术的契合点。以当前企业发展中普遍达成共识的数智化经营为例,也在积极探索大语言模型、多模态技术等对数智化升级和业务经营效率与效果的提升。
在近日于武汉举行的 2023ACM 中国图灵大会 SIGAI China 论坛上,阿里妈妈及闲鱼 CTO 郑波分享了他关于数智商业技术的洞见。他认为,在这轮生成式 AI 大模型的驱动下,数智商业技术将进入 2.0 时代,其中知识驱动、逻辑推理和创造性将成为明显的特征。
在其主题报告《知识、推理和创造,重塑数智商业技术 —— 从北大 - 阿里妈妈人工智能创新联合实验室谈起》中,郑波介绍了阿里妈妈技术团队针对不同业务场景,探索生成式 AI 大模型、多模态、引擎等技术的创新和应用,为商家客户和消费者提供精准、高效、高质的产品和服务。
以下为郑波老师的主题分享内容,机器之心在不改变原意的前提下进行了整理。
数智经营技术从 1.0 进入 2.0 时代
阿里妈妈做好了准备
大家知道,自去年 12 月底至今,一波以生成式 AI 大模型和 AIGC 为代表的 AI 技术浪潮正在深刻影响着未来的技术走向,学术界和工业界都在关注相关技术的发展。我将更多地从工业界视角分享阿里妈妈对数智商业技术的一些趋势判断和技术进展。
作为直接与商家客户、消费者互动的平台,我们观察到,AI 技术正以前所未有的速度重塑和改变商业场景,技术变革的速度可以用「时新日异」来形容。
面向未来的数智商业技术,我们认为将会呈现三个明显特征,即知识驱动、逻辑推理和创造性。未来将形成基于认知和常识、端到端链路有推理和执行过程的、更有创造性的数智商业技术。
基于此,我们判断数智商业技术将从 1.0 时代进入 2.0 时代。1.0 时代以在线经营、基于数据统计和经验判断的数字经营为主,而 2.0 时代将会是知识经营、基于 AI 的决策执行和因果推断的创造性智能经营时代。
同时 1.0 时代更多是从领域数据、有监督学习等 AI 技术出发,2.0 时代则将从生成式 AI 大模型、多模态技术以及对数据的更有效运用等新变化出发。除了进一步重塑和改变商业场景之外,2.0 时代将深刻影响商家经营方式、消费者购物体验等。
在这种新的趋势下,阿里妈妈立足知识驱动、逻辑推理和创造性三大方向,通过生成式 AI 大模型等领域的技术探索和研究应用,形成领先的全栈式技术体系,将最前沿的 AI 技术应用到多样化商业场景中来。具体如下:
- 探索大语言模型、多模态、大模型引擎技术在智能营销 Agent、联盟广告分析(智能问答助手)等知识驱动方面的应用;
- 在逻辑推理方面,通过增强分析以及包括 AIDA、Neural Auction、AIGB 等 AIGA 决策智能技术算法体系,帮助商家进行投放决策和精准评估,管理大规模的人群、商品和内容资产;
- 在创造性方面,通过营销创意工具、智能设计等帮助商家自由生产创意;
- 通过内容风控和防作弊等帮助商家和平台更精准识别和处理风险,降低损失。
- 接下来一一来看阿里妈妈在知识驱动、逻辑推理和创造性三个方面的应用进展。
知识驱动篇
多模态赋能商品检测
& 大模型服务引擎贯穿多场景
在知识驱动方面,我首先介绍多模态技术深度应用工业场景的案例 —— 拍立淘。在手机淘宝中,用户会使用拍立淘拍照搜索来准确表达搜索意图,通常是想要找同款或者比较价格。因此,充分理解 Query 图片和商品,实现同款商品准确检测,不仅影响用户体验,也决定了商家对这部分精准用户的有效投放。
可以说,广告投放的多个环节都涉及到多模态技术的运用。我们首先针对商品主体检测,提出基于文本 prompt 的多模态目标检测方法,通过文本和图片主体的对齐来提升目标检测效果,相比单模态方法在检测 mAP 指标上提升 2.1%。
在识别主体后,我们通过多阶段的表征预训练框架,训练了面向同款检索的商品多模态表征,并通过高性能向量化检索引擎实现在线实时同款商品召回,top100 召回商品同款率超过 98%。
对于商品多模态统一预训练表征,我们使用了预训练 + 微调的两阶段训练范式。第一阶段使用超过百亿级电商图文语料,采用图文掩码建模任务做无监督预训练,让模型在见过更多数据后,学得更好的图文编码器;第二阶段使用超过十亿级拍立淘成交图文对,采用对比学习任务做有监督微调,并在 loss 上同时对齐图像、文本和图文,不同模态之间更好地对齐。
为了支持多模态模型的高效训练,阿里妈妈技术团队研发了基于 MDL 训练框架和 AiLake 存储系统的大规模多模态训练平台。目前基于 100 张 A100 卡,我们可以在两天内完成 50 亿量级样本的训练。
除了商品检索的多模态技术创新,阿里妈妈还针对智能创意、营销分析、平台提效、业务反作弊等多样化商业场景开发了 AI Serving4LM(大模型服务)引擎,具备千亿参数规模的大模型服务能力。
逻辑推理篇
决策智能、增强分析助力商家精准投放
在逻辑推理方面,我将首先介绍阿里妈妈的决策智能技术体系。
我们以智能营销决策大模型 AIGA(AI Generated Action)为核心塑造了智能营销技术体系,其中 RL-based Bidding(基于强化学习的出价)帮助商家显著提升营销效果,Learning-based Auction Design(基于学习的拍卖机制设计)更加高效地统筹优化多方利益。该技术体系完整架构如下图所示。
智能商业化策略解决的是,什么样的资源进行拍卖对平台最高效且最能平衡用户体验和商业收入。
智能拍卖机制决定了流量资源分配给哪些广告主以及扣多少钱,其本身也是一个可决策问题。我们提出并落地了 Deep GSP、Neural Auction、Two-stage Auction 等多个创新算法。
智能出价策略面向精细化出价的决策过程,通过多参出价策略、RL 参数优化或建模范式(如 Max Return 等)进行优化。
底层是基于算法的工程架构,包括海量数据实时处理、ODL(在线深度学习)模型训练等,它们构成技术体系的基础。
其实,我们团队很早就开始尝试用生成式大模型重塑智能营销技术体系,并衍生出了 AIGB(AI Generated Bidding)领域技能模型。作为一种基于生成式模型的出价模型优化方案,AIGB 将策略建模作为条件生成模型,消除了以往 RL 学习视角下的复杂性问题。
具体地,我们引入生成式模型将序列决策问题建模为一个序列动作生成问题。模型通过拟合历史轨迹数据中的行为模式,达到策略输出的目标。从结果来看,在通用数据集上,相较主流 RL 方法取得较好效果提升,为 Bidding 建模提供了一个可用的迭代方案。
接下来讲如何利用数据进行决策。对于淘宝平台上百万级中小商家而言,利用数据驱动决策的能力是可望不可及的。因此,我们希望借助 LLM,让数据转化为知识,并让知识普惠所有商家尤其是中小商家的经营决策。
如何实现呢?具体流程可以参考如下 demo。首先利用 LLM 理解客户意图、分析任务规划;然后在分析层,OLAP 引擎对多维数据集进行分析模型的自动化探查,向客户提供描述性、诊断性、预测性和行动性知识;最后 AI analyst 将这些领域知识和洞见以 Data Story 的形式向客户解读。并且,这些功能将在随后的产品中逐步开放给商家。
总之,通过增强分析,我们希望发挥数据在高质量业务决策中的关键作用,获得更深刻、敏捷的数据洞察。
最后来看智能营销引擎,我们形成了多模态应用范式驱动的交互式策略生成技术工程体系。在逻辑推理的工程引擎方面,为了更好地提升客户投放效率和效果,阿里妈妈自研超融合多模智能引擎 HME。
目前我们已经形成覆盖 OLAP、AI、Streaming、Batch、运筹优化五大方向的智能超融合引擎,围绕洞察 - 策略 - 投放 - 衡量的全链路场景,解决商家多经营目标组合优化的难题。
创造性篇
用创意服务为商家减负和增效
至于阿里妈妈的创造性方面,我将通过以下几个场景具体展开。
第一个场景是智能图文创意。针对很多中小商家没有制作创意图预算的情况,我们利用内容生成技术为他们制作创意图片。目前每天为百万商家制作数以亿计的商品创意图。
同时为了让创意图片更美观且更原生,我们研发一整套图片制作算法,包括 AI for 底图生成、图片智能布局和基于上下文的多模态图上文案生成。
流程是这样的:首先对商品建模,利用扩散模型对商品前景生成不同氛围且融合度高的背景,裁剪尺度合适的图片;然后选择适合图片的文案、衬底、Logo 或其他装饰元素;最后根据预测出的文本框位置、大小及周围颜色纹理,预测应该写什么文字。
第二个场景是虚拟模特。淘宝服饰商家会请模特来试穿,模特本身、布景、拍摄都要花不少钱。针对此,我们利用创意生成技术研发虚拟试装模特。
下图左为虚拟模特穿售卖衣服的图片,其中模特的性别、年龄、肤色、发型以及背景场景都可以个性化选择。商家基于自售衣服的特点选择属性,然后根据投放结果进行优化,时间和制作成本大大减少。
我们在技术上独创前、背景多次生成的流程,利用局部纹理控制网络来精细控制生成内容,并根据特有任务定制化训练基础模型,解决了目前模特换装中服饰还原度不够和前背景边缘不清晰问题。
阿里妈妈万相实验室:https://agi.taobao.com/
第三个场景是多种风格字体生成。商家做创意有时要花钱购买商用字体,我们为他们提供了多款免费、有特色的字体。如何做到呢?我们借鉴古代石碑、书籍中独具风格的文字,利用 AI 字体风格生成技术学习建模一种字体风格,再推广到所有常用字,得到一种可用字体。
如下图左,我们根据东晋著名碑刻拓印「爨 (cuan) 宝子碑」和颜真卿真迹「多宝塔碑」分别训练成了「阿里妈妈刀隶体」和「阿里妈妈东方大楷」。目前我们一共免费开放了 5 种字体。这些字体采用我们自研的字体风格迁移算法,提出了内容融合和投影字符损失等创新模块,发表在了 CVPR 2023 上,迁移效果业界领先。
除了通过上述多个创意性产品来为中小商家「减负」和「增效」,阿里妈妈一直希望推动 AI 技术普惠,让更多中小商家享受科技红利。这里我要谈一谈阿里妈妈的 AI 技术产品 —— 万相台,从媒体流量变现切换到商家经营需求视角,通过 AI 技术在全域流量上最大化满足商家拉新、上新、大促等不同营销需求,助力生意增长。
万相台的全链路流程。
除了深耕于融合业务场景的技术创新和应用,我们也非常看重工业界与学术界的深度融合、相互促进。我认为现在也是学术界和工业界更加紧密联系的一个契机,双方通过产学研等合作方式,可以实现从 AI 理论到工业实际应用场景的落地。
因此, 阿里妈妈正和国内众多知名高校、研究机构开展多个方向、多个项目的产学研合作,其中代表性的是 2022 年 9 月成立的「北大 - 阿里妈妈人工智能创新联合实验室(PAAI)」,重点攻关 AI 理论和创新算法研究。自成立以来,实验室已在大规模图模型、决策智能和智能音乐生成等方向有了一些研究成果和应用。
目前实验室已有 5 篇以上论文被 KDD、IJCAI、WWW 等国际一流顶会接收,大规模图模型和决策智能技术在阿里妈妈应用场景的落地也在有序上线准备中,智能音乐生成方向也完成了广告配乐小样的生成。
感兴趣的读者可以访问该实验室网站:http://paai.pku.edu.cn/