大模型应用实践:AIGC探索之旅(上):https://developer.aliyun.com/article/1443304
大模型概述
▐ 大模型的定义和特点
大模型(Large Models)在人工智能(AI)和机器学习(ML)领域,通常指的是具有大量参数的(通常包含数百万到数十亿甚至更多的参数)、复杂计算结构和强泛化能力的机器学习模型。这类模型往往是基于神经网络,尤其是深度神经网络,包括但不限于深度卷积神经网络(CNNs)、循环神经网络(RNNs)、长短期记忆网络(LSTMs)和Transformer架构。
其主要特点包括:
- 大量参数:大模型拥有庞大的参数量,通常包含数百万到数十亿甚至更多的参数,远超过传统的小型模型。使其具备极高的表达能力,能够模拟和学习非常复杂的函数关系。
- 强大的学习能力:由于参数量巨大,这些模型具有强大的学习和泛化能力,能够在各种任务上达到或超越人类的表现。
- 大数据集&计算资源密集:为了训练这些模型避免过拟合,并充分利用其学习能力,需要大量的训练数据。且需要大量的计算资源进行训练,包括高性能硬件GPU集群和大量的电力。
- 预训练和微调:大多数大模型采用两阶段的学习过程,首先在大量的无标注数据上进行预训练,然后在特定任务的数据集上进行微调,以获得更好的性能。
- 自我监督学习:许多大模型通过自我监督学习来提高其泛化能力,这种学习方法不需要人工标签,而是让模型自己从输入数据中学习到有用的特征。
- 上下文敏感性:大模型在处理自然语言理解和生成任务时,能考虑到更多的上下文信息,从而生成更加准确和流畅的文本。因此在实践大模型过程中要尽可能输入足够的上下文信息来提高结果的准确度。
- 解释性的挑战:由于模型的复杂性,理解模型的决策过程和内部工作机制是具有挑战性的,这通常被称为模型的解释性或透明度问题。
▐ 典型大模型举例
国际:
组织 |
模型/应用 |
备注 |
OpenAI |
GPT-1/GPT-2/GPT-3 |
|
OpenAI |
GPT-4 |
|
LaMDA |
|
|
PaLM-E |
|
|
Meta |
PaLM-A |
|
Meta |
LLaMA |
|
微软 |
Windows Copilot |
|
国内:
组织 |
模型/应用 |
备注 |
复旦大学 | MOSS |
|
阿里 |
通义千问 |
|
清华大学 |
ChatGLM |
|
华为 |
盘古 |
|
商汤 |
“商量”SenseChat |
|
腾讯 |
混元 |
|
科大讯飞 |
星火认知 |
|
百川智能 |
Baichuan-7B、Baichuan-13B |
|
百度 |
文心一言 2023.10.17 文心大模型4.0正式发布 |
|
【注】更多模型可从huggingface模型平台查看 ;huggingface国内镜像(地址:https://aliendao.cn/models#/)
总结来看:
- 模型演进方向:模型参数规模更大、多模态支持演进
- 技术成熟度:国内整体能力尚处在追赶GPT3.5阶段,部分中文能力上逼近GPT3.5(见下附图),与国外有一定差距
【附】中文能力上10月 SuperCLUE 评测排名
AIGC应用探索
▐ 业务背景
笔者所在业务存在多国家多语种的千万级别的海外特色供给,因多语种翻译、商品信息不足、供应商能力等问题导致大量商品属性缺失、图片素材质量低;导致用户理解难、转化低、万求高。面对极大品量,运营手动仅可补全少量头部商品,无法全量优化。在AI技术成熟的背景下,考虑采用AIGC的方式对商品的属性、卖点、素材图片、场景图等信息进行补全及优化。
▐ AIGC技术落地过程
作为一名业务技术开发,必须时刻围绕解决业务实际问题、技术创新驱动业务发展、快速响应市场变化等方面思考。在项目启动初期,我们首先基于探物香水标品场景2000个品批量AIGC素材,验证AIGC生产可行性。并经过多次脑暴探索,明确要做能够带来业务价值的、能够规模化的、能够突出国际垂类优势的AIGC应用。不做炫技的,落不了地的,没有业务感知的,不做通用的模型,算力(资源不允许)。
因此技术目标:搭建可复用可扩展、嵌入产供投链路的AIGC工程引擎;辅助业务快速落地AIGC场景。技术选型核心三步:1、模型底层选择;2、语言&框架选择;3、整体架构设计。
- 模型选择
生文模型:初期我们采用GPT4、GPT3.5,后面也逐步引入了通义千问、vertex-PaLM2、claude2等。
生图模型:Stable Diffusion
成本方面估算:对于英文,1个token大约为4个英文字符或0.75个英文单词;对于中文,1中文约1-3个token。前期试验下来,探物品 cost=0.12元/品,是在业务可接受的范围。
测算token数网站:https://gpttools.com/estimator
- 技术框架选择
综合开源社区活跃、可靠性,以及前期我们采用GPT模型适配度等多方面考虑,在模型层我们采用LangChain框架构建。
特点 |
LangChain |
Llama-Index |
Semantic Kernel(微软) |
语言 |
Python ;Js/Ts |
Python |
TypeScript |
可组合性 |
是 |
是 |
是 |
LLMs和Prompt管理 |
是 | 是 | 是 |
Chains(编排能力) |
是 | 否 |
是 |
数据索引处理 |
是 | 是 |
是 |
任务管理(agents) |
是 | 否 |
是 |
状态管理 |
是 |
否 | 是 |
Evaluation |
是 | 否 |
是 |
文档 |
【注】这些框架的目的是为 LLM 交互创建一个底层编排引擎
LangChain是一个基于大型语言模型(LLMs)构建应用的框架。它的核心思想是定义标准接口(可以自定义实现)& 可以将不同的组件“链接”起来,创建更高级的LLMs应用 ,类似spring全家桶。它可以帮助你实现聊天机器人、生成式问答、文本摘要等功能。
langchain-python | langchain-java |
|
生态繁荣度和可靠性 |
高,社区活跃,github 4.7W+star |
低,集团内部团队自建 |
扩展工具多样性 |
高度丰富的组件能力 |
极少 |
集团中间件兼容 |
和集团内部对接都需要进行框架层开发,比如hsf调用、数据库对接、服务化的能力 |
支持 |
集团容器兼容 |
支持 |
支持 |
集团LLM接口兼容 |
需要进行框架层对接,开发成本较低 |
有对接成本 |
开发成本 |
python数据处理(爬取、清洗、标注)、大模型交互python性价比更高,可快速搭建试错 |
跟数据处理和大模型交互更重,试错周期长 |
文档 |
langchain官网:https://python.langchain.com/en |
【语言选择】:python+java结合的方式:
- 核心LLM执行引擎层:langchain-python选型具备优势(数据处理、大模型交互python性价比更高,也可快速搭建试错)
- 上层能力层可以采用java工程搭建(偏业务交互)
- 整体架构设计
数据层:弹内/弹外数据->自然语言文本处理->国际自营行业向量数据库
模型层:依赖集团内部/国际自营大模型能力
工程引擎:横向通用能力视角(生文、生图、会话等),支撑上层业务场景&嵌入生产投放链路
- LLM任务执行引擎层:基于langchain框架思想构建,将 LLM 模型与外部数据源进行连接,按场景编排链路,以及选择执行工具
- 图任务引擎:高清化能力、图像切割能力、背景替换合图能力
- prompt工程能力:prompt模板定义(Instruction、Input Data、Output Indicator、requirements等),动态化模板解析&填充能力(具备外部输入+规则动态拼接能力,串联生产链路)
- 任务调度能力:支持业务excel/圈品等多方式任务创建、任务试跑(准确性校验&费用预估等)、DTS任务调度执行能力
▐ 部分实践案例
建设批量文生文AIGC工程引擎,具备prompt模板提示&自动填充、任务试跑预览、费用预估、批量化AIGC生产等能力。已应用素材文生文、商品咨询FAQ生产等场景。
建设图生图AIGC工程引擎,完成图片的超分处理、AI二创等工程建设,支持业务优化商品图片素材质量。已应用探物标品素材图生图等场景。
▐ 其他应用场景
下面是本人收集的一些应用场景case,希望给大家更多的思考启发。
外部公司应用场景更广,这里简单列举下:
- AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播等
- AIGC+电商:商品3D模型、虚拟主播、虚拟货场等
- AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片等
- AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画等
- AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D
- AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服等
- AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴等
- AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感等。
AIGC的实践挑战
笔者在AIGC应用的初探,技术挑战与机遇并存。下面给大家分享下AIGC的实践挑战以及部分解决思路。
▐ 技术挑战
问题 |
描述 |
解决方案及思路 |
知识量有限 |
比如GPT 4,21年前训练样本&通用语料训练,实时数据、垂直领域的数据&专属知识无法理解无法"在外部世界行动",不论是搜索网页、调用 API 还是查找数据库 | 方案1.LLM+检索增强 :LLM的基础上通过检索等额外提供领域数据信息;对于用户输入Query,结合业务数据中检索到的结果一起输入给LLM,则可以得到更精准的回答。方案2.构建行业数据集对LLM进行微调,使模型本身具备输出行业信息的能力。(成本高且效果不佳)【解决方案】:LLM+检索增强:OpenAI提出了chatgpt-retrieval-plugin、WebGPT,开源社区提出了DocsGPT、ChatPDF、基于langchain的检索增强chatbot等等一系列解决方案 |
效果问题 |
部分场景效果不及预期复杂逻辑推理能力不佳对未见过的知识语料回答效果差 | 1、大模型+上下文学习技术(In-Context Learning), 设计合理的prompt模版2、大模型+思维链提示(Chain-of-Thought Prompting),引入推理路径作为提示,激发大模型按照这种推理的模式生成出合理的结果3、大模型+高质量标注样本+指令微调,提高模型对特定任务的泛化能力 |
延迟问题 |
一次完整问答大概 10s+ (用户200ms会有体感)延迟主要受两个因素影响:模型和生成的令牌数量。 | 1、流式传输。请求中的设置stream: true使模型在令牌可用时立即开始返回令牌,而不是等待生成完整的令牌序列。它不会改变获取所有令牌的时间,但它会减少我们想要显示部分进度或将停止生成的应用程序的第一个令牌的时间。这可以是更好的用户体验和 UX 改进,因此值得尝试流式传输。2、基础设施。openai 美国。存在跨国网络延时3、减小token 。例如使用更短的提示。
|
资源和性能 |
训练&微调都需要不少机器资源,目前GPU资源匮乏部署资源,尤其是C端投放有高并发低延时要求,需要投入巨大成本在线serving | 1、不训练基座模型,微调选择的基座模型选几B~几十B左右的LLM (如ChatGLM-6B)2、曲线救国,线上不直接使用大模型serving,一种是利用大模型的embedding, 另一种是利用大模型来进行更多样本标注,来辅助小模型学习 |
▐ 伦理和监管问题
随着大模型在AIGC中的广泛应用,它们引发了关于数据隐私、版权、内容监管和偏见等问题的讨论。因此,大模型的使用不仅涉及技术层面,还涉及伦理和法律层面。
问题 |
描述 |
解决方案及思路 |
安全与合规 |
如政治敏感、违法犯罪、伦理道德等问题,尤其是LLM直接面向C端场景 |
1、建设安全校验模块能力 3、C端:生成式大模型必须通过SFT、RLHF等微调技术对大模型做适配微调,对齐人类的价值观; |
政策问题 |
对于类GPT能力作为C端应用的开放程度需受限于政策 |
1、上线前需安全评估 |
【附】网信办411公布《生成式人工智能服务管理办法》征求意见稿,规范生成式人工智能产品(AIGC,如 ChatGPT)的开发和使用方式、行业的定义、对生产者的要求和责任等方面。意见稿中尤其提出:“利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
C端应用上线需要过“双新评估”:
AIGC的未来展望
业务侧规划:基于业务场景继续创新,扩大战果。更多还是聚焦基建和业务场景应用。
技术期待:AI大势浩浩荡荡,顺之者昌逆之者亡。YY几个未来的期待场景
- 增强的交互式AI:类似google最近发布的Gemini,改变当前信息交互方式,期待每个人都有专属钢铁侠中的人工智能“贾维斯”。
- 个性化和定制化内容:大数据+AIGC根据用户偏好、历史行为和实时反馈生成的个性化和定制化内容。
- 虚拟现实内容:AIGC多模态内容生成发展,图像、视频、音频等,未来说不定AI构建虚拟现实内容。
附录
- langchain 官方文档 https://python.langchain.com/en/latest/getting_started/getting_started.html
- langchain 快速入门中文版 https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
- 吴恩达llm教程 https://www.deeplearning.ai/short-courses/
- GPT开发应用利器:LangChain https://zhuanlan.zhihu.com/p/630253274
- LangChain使用调研 https://blog.csdn.net/benben044/article/details/130843326
- openai 原始接口文档 https://platform.openai.com/docs/api-reference/completions
团队介绍
进口技术作为阿里巴巴完整的电商生态环境中的重要一环,是阿里经济体5年2000亿美金进口承诺的主力担当。我们依托淘系电商生态,致力于在全球的品牌和商家同中国庞大的消费者市场之间构建高效率、有温度的消费平台,通过数据和技术能力,为品牌、商家和消费者提供优质服务。