大模型应用实践：AIGC探索之旅（下）-阿里云开发者社区

大模型应用实践：AIGC探索之旅（上）：https://developer.aliyun.com/article/1443304

大模型概述

▐ 大模型的定义和特点

大模型（Large Models）在人工智能（AI）和机器学习（ML）领域，通常指的是具有大量参数的(通常包含数百万到数十亿甚至更多的参数)、复杂计算结构和强泛化能力的机器学习模型。这类模型往往是基于神经网络，尤其是深度神经网络，包括但不限于深度卷积神经网络（CNNs）、循环神经网络（RNNs）、长短期记忆网络（LSTMs）和Transformer架构。

其主要特点包括：

大量参数：大模型拥有庞大的参数量，通常包含数百万到数十亿甚至更多的参数，远超过传统的小型模型。使其具备极高的表达能力，能够模拟和学习非常复杂的函数关系。
强大的学习能力：由于参数量巨大，这些模型具有强大的学习和泛化能力，能够在各种任务上达到或超越人类的表现。
大数据集&计算资源密集：为了训练这些模型避免过拟合，并充分利用其学习能力，需要大量的训练数据。且需要大量的计算资源进行训练，包括高性能硬件GPU集群和大量的电力。
预训练和微调：大多数大模型采用两阶段的学习过程，首先在大量的无标注数据上进行预训练，然后在特定任务的数据集上进行微调，以获得更好的性能。
自我监督学习：许多大模型通过自我监督学习来提高其泛化能力，这种学习方法不需要人工标签，而是让模型自己从输入数据中学习到有用的特征。
上下文敏感性：大模型在处理自然语言理解和生成任务时，能考虑到更多的上下文信息，从而生成更加准确和流畅的文本。因此在实践大模型过程中要尽可能输入足够的上下文信息来提高结果的准确度。
解释性的挑战：由于模型的复杂性，理解模型的决策过程和内部工作机制是具有挑战性的，这通常被称为模型的解释性或透明度问题。

▐ 典型大模型举例

国际：

组织	模型/应用	备注
OpenAI	GPT-1/GPT-2/GPT-3	GPT-1：1.17亿参数；5GB预训练数据 GPT-2：15亿参数；40GB预训练数据 GPT-3：1750亿参数；570GB预训练数据
OpenAI	GPT-4	加入图片功能，对外开放更愿意调用自己的外部知识有更强的逻辑推理能力体验地址：https://chat.openai.com/
Google	LaMDA	谷歌推出的基于Transformer架构的大语言模型 137B参数独特之处在于采用了对话式的交互方式，让用户能够更加自然地与计算机进行交流
Google	PaLM-E	拥有5400亿个参数独特之处在于可将语言模型和视觉模型结合起来，实现多模态理解与生成。
Meta	PaLM-A	基于PaLM架构可应用于多种场景，包括文本分类、问答系统等
Meta	LLaMA	7B-65B参数
微软	Windows Copilot	集中式 AI 协助的 PC 平台，高效的个人助理

国内：

组织	模型/应用	备注
复旦大学	MOSS	160亿参数的支持中英双语的对话大语言模型国内首个类ChatGPT模型体验地址：https://moss.fastnlp.top/
阿里	通义千问	内测 https://bazinga.aliyun-inc.com/ 公开 https://tongyi.aliyun.com/
清华大学	ChatGLM	开源模型 https://github.com/THUDM/ChatGLM-6B
华为	盘古	国内首个全栈自主的AI大模型，有盘古NLP大模型（对话问答，代码生成，文案生成，Versatile，NL2SQL）、盘古CV大模型，盘古多模态大模型（图形生成，图像编辑，3D生成），盘古预测大模型，盘古科学计算大模型等体验地址：https://pangu.huaweicloud.com/index.html?ref=openi.cn
商汤	“商量”SenseChat	体验地址：https://chat.sensetime.com/wb/
腾讯	混元	具备强大的中文创作能力，复杂语境下的逻辑推理能力超1000亿参数规模，预训练语料超2万亿tokens 体验地址：https://hunyuan.tencent.com/
科大讯飞	星火认知	拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。体验地址：https://xinghuo.xfyun.cn/
百川智能	Baichuan-7B、Baichuan-13B	开源可免费商用的百川大模型体验地址：https://www.baichuan-ai.com/home
百度	文心一言 2023.10.17 文心大模型4.0正式发布	体验地址：https://yiyan.baidu.com/ 文心大模型的4.0正式发布：在理解、生成、逻辑、记忆这四大能力上明显的提升

【注】更多模型可从huggingface模型平台查看；huggingface国内镜像（地址：https://aliendao.cn/models#/）

总结来看：

模型演进方向：模型参数规模更大、多模态支持演进
技术成熟度：国内整体能力尚处在追赶GPT3.5阶段，部分中文能力上逼近GPT3.5(见下附图)，与国外有一定差距

【附】中文能力上10月 SuperCLUE 评测排名

AIGC应用探索

▐ 业务背景

笔者所在业务存在多国家多语种的千万级别的海外特色供给，因多语种翻译、商品信息不足、供应商能力等问题导致大量商品属性缺失、图片素材质量低；导致用户理解难、转化低、万求高。面对极大品量，运营手动仅可补全少量头部商品，无法全量优化。在AI技术成熟的背景下，考虑采用AIGC的方式对商品的属性、卖点、素材图片、场景图等信息进行补全及优化。

▐ AIGC技术落地过程

作为一名业务技术开发，必须时刻围绕解决业务实际问题、技术创新驱动业务发展、快速响应市场变化等方面思考。在项目启动初期，我们首先基于探物香水标品场景2000个品批量AIGC素材，验证AIGC生产可行性。并经过多次脑暴探索，明确要做能够带来业务价值的、能够规模化的、能够突出国际垂类优势的AIGC应用。不做炫技的，落不了地的，没有业务感知的，不做通用的模型，算力(资源不允许)。
因此技术目标：搭建可复用可扩展、嵌入产供投链路的AIGC工程引擎；辅助业务快速落地AIGC场景。技术选型核心三步：1、模型底层选择；2、语言&框架选择；3、整体架构设计。

模型选择

生文模型：初期我们采用GPT4、GPT3.5，后面也逐步引入了通义千问、vertex-PaLM2、claude2等。

生图模型：Stable Diffusion

成本方面估算：对于英文，1个token大约为4个英文字符或0.75个英文单词；对于中文，1中文约1-3个token。前期试验下来，探物品 cost=0.12元/品，是在业务可接受的范围。

测算token数网站：https://gpttools.com/estimator

技术框架选择

综合开源社区活跃、可靠性，以及前期我们采用GPT模型适配度等多方面考虑，在模型层我们采用LangChain框架构建。

特点	LangChain	Llama-Index	Semantic Kernel（微软）
语言	Python ；Js/Ts	Python	TypeScript
可组合性	是	是	是
LLMs和Prompt管理	是	是	是
Chains（编排能力）	是	否	是
数据索引处理	是	是	是
任务管理（agents）	是	否	是
状态管理	是	否	是
Evaluation	是	否	是
文档	https://github.com/hwchase17/langchain https://langchain.github.io/		https://github.com/microsoft/semantic-kernel https://learn.microsoft.com/en-us/semantic-kernel/

【注】这些框架的目的是为 LLM 交互创建一个底层编排引擎

LangChain是一个基于大型语言模型（LLMs）构建应用的框架。它的核心思想是定义标准接口（可以自定义实现）& 可以将不同的组件“链接”起来，创建更高级的LLMs应用，类似spring全家桶。它可以帮助你实现聊天机器人、生成式问答、文本摘要等功能。

	langchain-python	langchain-java
生态繁荣度和可靠性	高，社区活跃，github 4.7W+star	低，集团内部团队自建
扩展工具多样性	高度丰富的组件能力	极少
集团中间件兼容	和集团内部对接都需要进行框架层开发，比如hsf调用、数据库对接、服务化的能力	支持
集团容器兼容	支持	支持
集团LLM接口兼容	需要进行框架层对接，开发成本较低	有对接成本
开发成本	python数据处理(爬取、清洗、标注)、大模型交互python性价比更高，可快速搭建试错	跟数据处理和大模型交互更重，试错周期长
文档	langchain官网：https://python.langchain.com/en

【语言选择】：python+java结合的方式：

核心LLM执行引擎层：langchain-python选型具备优势（数据处理、大模型交互python性价比更高，也可快速搭建试错）
上层能力层可以采用java工程搭建（偏业务交互）

整体架构设计

数据层：弹内/弹外数据->自然语言文本处理->国际自营行业向量数据库

模型层：依赖集团内部/国际自营大模型能力

工程引擎：横向通用能力视角（生文、生图、会话等），支撑上层业务场景&嵌入生产投放链路

LLM任务执行引擎层：基于langchain框架思想构建，将 LLM 模型与外部数据源进行连接，按场景编排链路，以及选择执行工具
图任务引擎：高清化能力、图像切割能力、背景替换合图能力
prompt工程能力：prompt模板定义(Instruction、Input Data、Output Indicator、requirements等)，动态化模板解析&填充能力(具备外部输入+规则动态拼接能力，串联生产链路）
任务调度能力：支持业务excel/圈品等多方式任务创建、任务试跑(准确性校验&费用预估等)、DTS任务调度执行能力

▐ 部分实践案例

建设批量文生文AIGC工程引擎，具备prompt模板提示&自动填充、任务试跑预览、费用预估、批量化AIGC生产等能力。已应用素材文生文、商品咨询FAQ生产等场景。

建设图生图AIGC工程引擎，完成图片的超分处理、AI二创等工程建设，支持业务优化商品图片素材质量。已应用探物标品素材图生图等场景。

▐ 其他应用场景

下面是本人收集的一些应用场景case，希望给大家更多的思考启发。

外部公司应用场景更广，这里简单列举下：

AIGC+传媒：写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播等
AIGC+电商：商品3D模型、虚拟主播、虚拟货场等
AIGC+影视：AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片等
AIGC+娱乐：AI换脸应用（如FaceAPP、ZAO）、AI作曲（如初音未来虚拟歌姬）、AI合成音视频动画等
AIGC+教育：AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D
AIGC+金融：通过AIGC实现金融资讯、产品介绍视频内容的自动化生产，通过AIGC塑造虚拟数字人客服等
AIGC+医疗；AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴等
AIGC+工业：通过AIGC完成工程设计中重复的低层次任务，通过AIGC生成衍生设计，为工程师提供灵感等。

AIGC的实践挑战

笔者在AIGC应用的初探，技术挑战与机遇并存。下面给大家分享下AIGC的实践挑战以及部分解决思路。

▐ 技术挑战

问题	描述	解决方案及思路
知识量有限	比如GPT 4，21年前训练样本&通用语料训练，实时数据、垂直领域的数据&专属知识无法理解无法"在外部世界行动"，不论是搜索网页、调用 API 还是查找数据库	方案1.LLM+检索增强：LLM的基础上通过检索等额外提供领域数据信息；对于用户输入Query，结合业务数据中检索到的结果一起输入给LLM，则可以得到更精准的回答。方案2.构建行业数据集对LLM进行微调，使模型本身具备输出行业信息的能力。（成本高且效果不佳）【解决方案】：LLM+检索增强：OpenAI提出了chatgpt-retrieval-plugin、WebGPT，开源社区提出了DocsGPT、ChatPDF、基于langchain的检索增强chatbot等等一系列解决方案
效果问题	部分场景效果不及预期复杂逻辑推理能力不佳对未见过的知识语料回答效果差	1、大模型+上下文学习技术（In-Context Learning），设计合理的prompt模版2、大模型+思维链提示（Chain-of-Thought Prompting），引入推理路径作为提示，激发大模型按照这种推理的模式生成出合理的结果3、大模型+高质量标注样本+指令微调，提高模型对特定任务的泛化能力
延迟问题	一次完整问答大概 10s+ （用户200ms会有体感）延迟主要受两个因素影响：模型和生成的令牌数量。	1、流式传输。请求中的设置stream: true使模型在令牌可用时立即开始返回令牌，而不是等待生成完整的令牌序列。它不会改变获取所有令牌的时间，但它会减少我们想要显示部分进度或将停止生成的应用程序的第一个令牌的时间。这可以是更好的用户体验和 UX 改进，因此值得尝试流式传输。2、基础设施。openai 美国。存在跨国网络延时3、减小token 。例如使用更短的提示。交互式分词器工具来帮助估算成本 4、缓存：通过存储经常访问的数据，可以缩短响应时间，而无需重复调用 API。但在添加新信息时使缓存无效。
资源和性能	训练&微调都需要不少机器资源，目前GPU资源匮乏部署资源，尤其是C端投放有高并发低延时要求，需要投入巨大成本在线serving	1、不训练基座模型，微调选择的基座模型选几B~几十B左右的LLM （如ChatGLM-6B）2、曲线救国，线上不直接使用大模型serving，一种是利用大模型的embedding，另一种是利用大模型来进行更多样本标注，来辅助小模型学习

▐ 伦理和监管问题

随着大模型在AIGC中的广泛应用，它们引发了关于数据隐私、版权、内容监管和偏见等问题的讨论。因此，大模型的使用不仅涉及技术层面，还涉及伦理和法律层面。

问题

描述

解决方案及思路

安全与合规

如政治敏感、违法犯罪、伦理道德等问题，尤其是LLM直接面向C端场景

1、建设安全校验模块能力
2、B端：生成素材数据清洗&人工审核

3、C端：生成式大模型必须通过SFT、RLHF等微调技术对大模型做适配微调，对齐人类的价值观；

政策问题

对于类GPT能力作为C端应用的开放程度需受限于政策

1、上线前需安全评估

【附】网信办411公布《生成式人工智能服务管理办法》征求意见稿，规范生成式人工智能产品（AIGC，如 ChatGPT）的开发和使用方式、行业的定义、对生产者的要求和责任等方面。意见稿中尤其提出：“利用生成式人工智能产品向公众提供服务前，应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估，并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。

C端应用上线需要过“双新评估”：

AIGC的未来展望

业务侧规划：基于业务场景继续创新，扩大战果。更多还是聚焦基建和业务场景应用。

技术期待：AI大势浩浩荡荡，顺之者昌逆之者亡。YY几个未来的期待场景

增强的交互式AI：类似google最近发布的Gemini，改变当前信息交互方式，期待每个人都有专属钢铁侠中的人工智能“贾维斯”。
个性化和定制化内容：大数据+AIGC根据用户偏好、历史行为和实时反馈生成的个性化和定制化内容。
虚拟现实内容：AIGC多模态内容生成发展，图像、视频、音频等，未来说不定AI构建虚拟现实内容。

附录

langchain 官方文档 https://python.langchain.com/en/latest/getting_started/getting_started.html
langchain 快速入门中文版 https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
吴恩达llm教程 https://www.deeplearning.ai/short-courses/
GPT开发应用利器：LangChain https://zhuanlan.zhihu.com/p/630253274
LangChain使用调研 https://blog.csdn.net/benben044/article/details/130843326
openai 原始接口文档 https://platform.openai.com/docs/api-reference/completions

团队介绍

进口技术作为阿里巴巴完整的电商生态环境中的重要一环，是阿里经济体5年2000亿美金进口承诺的主力担当。我们依托淘系电商生态，致力于在全球的品牌和商家同中国庞大的消费者市场之间构建高效率、有温度的消费平台，通过数据和技术能力，为品牌、商家和消费者提供优质服务。