《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。
2023年底,百模大战基本宣告结束,中国市场真正有实力留存下来做基础模型的厂商或许不超过10家。2024年,迎接下一轮AI发展,大模型应用接棒。大家都开始思考如何在这一轮新的排位赛中率先突出重围,以及到底怎么用并用好大模型。
基于这些考量,阿里云围绕离线训练、在线工具以及安全等功能,在2023年10月推出了“阿里云百炼”平台,并在2024年3月在功能上实现了一轮大规模的迭代升级。
该平台集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。开发者可在5分钟内开发一款大模型应用,几小时即可“炼”出一个企业专属模型,开发者可把更多精力专注于应用创新。
从发布至今,阿里云百炼已经在多个行业中展现出强大的赋能能力。本文将系统介绍百炼的能力升级和实践应用,帮助用户了解如何具体通过阿里云百炼开展专属模型构建和应用优化;以及对于初学者来说,存在哪些路径可以快速理解和掌握使用阿里云百炼,从而更轻松构建高效、强大的大模型应用。
一站式大模型服务平台,能力再升级
阿里云百炼发布之初,主要是面向不具备深厚“代码能力”的企业和开发者这类初级用户,提供一站式的模型服务能力。
2024年3月,阿里云百炼进行了全新升级,以一站式的大模型开发及应用构建能力,成为各类企业和开发者链接云与AI的重要云服务平台,提供从基础模型推理服务到复杂模型定制化训练的全方位服务,实现AI能力的快速接入与应用。
升级迭代后的百炼,具备更多的接入模式和流程,能让不同类型的企业与开发者根据自身的大模型应用开发上下游需求和资源投入,进行灵活选择和决策。百炼平台的服务对象也因此有了新的界定。
百炼平台的服务对象从单一的不具备开发能力的初级开发者,扩展为两类:第一类是具备代码能力,希望通过API调用、RAG整合、微调和定制化训练行业模型的企业和个人开发者;第二类是缺乏代码能力且期望以低成本接轨大模型时代的企业。
其中第一类用户群体又可进一步细分为三个层次,针对不同需求的企业,百炼平台也设计了不同层次服务。例如,对于有基础大模型推理服务需求的企业,平台提供了易于调用的API;对于希望整合RAG功能的企业,平台提供了包括数据分类、企业知识库建设和RAG链路搭建等服务;而对于需要对模型进行微调和持续训练的用户,平台还提供了从预训练到强化学习的全链路训练服务。
针对第二类用户群体,即算法能力有限、但迫切需要模型赋能的企业,阿里云百炼提供了一个全面、易用的一站式模型开发及服务平台。即使用户不具备深厚的编程技能,也能够借助“拖拽式”的无代码工具,直观地构建应用。
升级后的百炼,不仅能服务AI创业初期的中小企业,也能为寻求AI业务与场景创新的大型企业提供定制化支持,让企业和开发者不再受限于技术门槛。
在技术实现层面,阿里云百炼的两大核心工具——全链路模型服务工具和多样化应用Agent构建工具,也在本次升级中实现了新的能力迭代。
全链路模型服务覆盖数据管理、模型训练、评估和部署等关键环节。数据管理整合了离线和在线数据集,确保训练数据的质量和完备性。模型训练允许用户选择通义系列或第三方开源大模型,并通过透明化工具监控模型状态。模型评估提供多种资源,包括单模型和多模型对比,以对标行业标准。模型部署则通过一键功能简化云端应用流程。
模型训练完成后,为了使其能在真实场景中发挥实效,还需与Agent结合赋予模型实际操作能力。
升级后的阿里云百炼正式推出了智能体API,并为企业和开发者提供智能体API的调用。其中,智能体应用包含支持RAG、分析、创作等链路。同时,为保持开放性,百炼整合并优化了开源框架如LlamaIndex,提供封装的原子级服务和SDK。插件中心预设了多样插件,并支持企业和开发者自定义插件,以提升大模型的调用效率。此外,平台提供Prompt模板和优化工具,增强智能体API的服务质量。
具体来说,在升级后的阿里云百炼平台上,企业实际业务可以通过Agent能力无缝衔接大模型,例如嵌入企业知识库检索、天气查询、机票预订等功能,将方便快捷地融入日常业务流程。对于涉及多步骤的任务应用,如需多次调用大模型推理能力和第三方插件进行向量检索、天气信息抓取、库存数据查询等,阿里云百炼的Agent业务流程设计中也实现了全流程自动化串联。
全链路模型开发的实操指南
专属大模型的训练流程,一般从数据管理开始。百炼则提供了内置数据集,例如SFT(Supervised Fine-Tuning,监督微调)的数据集,以供快速应用,并给用户提供实际参考。一旦数据集管理就绪并被引入,便可以进入训练模块。从训练数据到训练模块,整个过程可以在平台上一键完成。
关于复杂专属模型的训练,阿里云百炼经过较长周期的内部测试,积累了丰富的实践经验。用户若要使用百炼平台进行复杂专属模型训练,具体可分为微调训练、持续预训练和强化学习三个阶段(其中部分能力将在后续更新中逐步产品化上线)。
首先,在微调训练阶段,用户可以使用内置的SFT数据集快速启动项目,并利用SFT+LoRA(Low-Rank Adaptation,低秩自适应)等微调技术进行模型定制。阿里云百炼提供了十多个超参数配置选项,允许用户根据自己的需求调整模型。此外,训练过程透明化,时长预估精准,底层框架加速效果显著。
用户也可以自定义训练数据,将SFT基模训练数据与自有数据按特定比例混合,以执行有针对性的训练。这样既能够在特定内容或子任务上取得卓越效果,同时又能确保模型不会丢失原有的基础与通用能力。
其次,在持续预训练阶段,即Continual Training(CT),用户可以通过海量未标注数据进行无监督训练,同时可进行自定义和多次增量训练。百炼的多模态持续预训练功能,进一步提升了模型的适应性和学习能力。
之后,是RM(Reward Model,奖励模型)+RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)强化学习阶段。在这一阶段,百炼提供了序列化训练数据的一键拉取、在线标注工具以及自定义奖励模型训练和多策略强化学习训练。用户可以利用开放且丰富的自定义训练参数,在训练前进行详细配置,满足特定应用需求。多策略强化学习训练,使得模型能够在复杂环境中进行有效学习。
模型训练完成后,即可实现一键部署,并通过在线评测工具进行评估。百炼提供的多种评测方法,包括自动化评测和半自动化训练,甚至后续将提供ELO评测方法,通过这一竞技评估,用户可以看到自己训练的模型相对于基础模型或第三方模型的大致排名,从而直观感受模型能力。
整个训练过程中,评测模块与标注工具相结合,实现了基于人类反馈的强化学习训练理念。阿里云百炼通过提供众多训练工具,将这一理念具体化并融入整个训练链路中,从而帮助用户实现模型训练的自动化,并快速评估模型能力。
在实际的使用过程中,阿里云百炼团队也为企业和开发者提供了若干项使用Tips,以便更好的运用平台进行模型构建和应用开发。
云上“炼”出复杂电力行业大模型
目前,已有诸多用户运用阿里云百炼平台打造企业或行业专属大模型,以及进行AI应用的创新尝试。
在实际应用过程中,用户对于专属模型的构建和创新应用的开发,提出了一系列具体要求,包括优质的模型效果、稳定且可弹性扩缩容的模型服务、内容的安全合规、企业数据在传输和存储时的安全等级,以及模型调用支持上层应用的快速构建(如知识问答、对接口调用)等。
对于用户提出的关于模型的优质效果要求,百炼可通过模型训练帮助用户训练企业专属大模型,并通过预置数据和数据混合工具,训练出兼具行业能力和通用能力的大模型,再通过模型测评方便用户快速评估模型效果。多轮训练和测评螺旋推进,最终可让用户获得效果最佳的行业/企业专属大模型。
在模型服务方面,基于阿里云十余年所积累的公共云基础建设和多元算力融合调度的服务能力,百炼提供了高性价比的公共云资源和云端VPC多种模型推理服务能力。用户所训练出来的专属大模型也可以通过多种计费方式,实现快速扩缩容,从而保证模型的整体成本。
在数据安全方面,百炼产品级别接入云上OSS、ADB-PG、SLS等多个数据中间件服务,并采用了最高级别的数据传输和存储加密方案,方便用户按需选择数据服务,保证企业内部数据安全。
在内容安全方面,百炼内置了阿里云沉淀多年的内容安全服务能力,并有多个内容安全服务可供用户选择。用户可按照行业、业务场景,来定义专属大模型的数据安全水位。
在模型应用方面,百炼具备如前所述的智能体和RAG等应用能力,可以让用户实际业务通过Agent无缝衔接大模型,并实现业务全流程自动化串联。
例如,电力行业是一个多学科交叉、专业性和复杂性都极高的行业,需集成先进电力工程、能源转换与传输、电网自动化与控制、可再生能源和智能电网等技术,来实时运营一个可靠安全、多层次、广泛互联的国民基础设施网络。
在新型电力系统建设等新挑战和智能决策等新技术的冲击下,电力行业正处于能源革命与数字革命相融并进的关键时期。在此背景下,电力行业迫切需要将人工智能与电力业务有机融合,包括快速实现智能感知和智能决策、高级数据的智能分析等。
然而,大模型在电力行业的深度应用却面临着诸多挑战。电力行业的特殊性和复杂性给通用大模型应用带来一系列难题,包括:模型所包含的参数量巨大,训练和部署对算力的消耗十分巨大,成本高昂;模型可解释性仍然较弱,通常需要增加内容管控手段,保证结果的安全性;模型对训练数据依赖性仍然很强,对超出训练数据的任务效果不尽如人意。
同时,在复杂技术含量的电力行业,AI应用落地也呈现一系列难点,例如电力属于高度专业化和复杂的领域,行业内有专业术语和标准,而通用大模型可能不了解或混淆这些术语;不同行业的数据特点各不相同,电力行业的数据可能涉及到时间序列数据、能源消耗数据、市场价格数据等多种类型,通用大模型未必能够有效地处理这些多样化的数据;电网企业通常需要个性化的解决方案以满足独特业务需求;电力行业涉及大量客户数据和敏感信息,受到严格的法规和合规性要求监管,因此数据隐私和安全性是至关重要的考虑因素。
无论是通用大模型所带来的高门槛,还是电力行业复杂性和特殊性所提出的特别要求,这些都对大模型在电力行业的应用提出了挑战。
在这样的背景下,朗新集团与阿里云围绕打造电力行业大模型场景下的算力资源、语料处理、定制化训练、数据安全保障等多领域,开展深度合作。
为了增强模型的稳定性与精准性,朗新集团借助百炼通过行业无监督数据进行自监督训练,采用有监督数据进行有监督的调优。
第一阶段,增量预训练(PT,Continue PreTraining),在海量文档数据进行大模型的二次预训练,以注入电力领域专业知识。
第二阶段,有监督微调(SFT,Supervised Fine-tuning),构造指令微调数据集,在预训练模型基础上做指令精调,以对齐指令意图。
第三阶段,RM(Reward Model)奖励模型建模,构造人类偏好排序数据集,训练奖励模型,用来对齐人类偏好。
第四阶段,基于人类反馈的强化学习(RLHF),用奖励模型来训练SFT模型,生成模型使用奖励或惩罚来更新其策略,以便生成更高质量、更符合人类偏好的文本。
朗新集团通过百炼深度融合电力行业特性,构建Prompt工程,实现了管理智能化、业务自动化和服务互动化。
除此之外,朗新集团依托阿里云百炼构建了多层级大模型产品,包括电力行业大模型、电力企业大模型、专业场景大模型,以满足不同市场应用需求;同时打造丰富应用场景,诸如账单智能解读、电力问答、智能问数等,支撑不同专业智能化需求。
作为专业场景大模型应用——“电力账单解读智能助手”可以代替电力计费专家,解读各类专业账单,为电力客户答疑解惑,并依据电价政策、电费计算规则及电力业务规范,提出针对性的节能建议。例如,它能通过自然语言交互自动获取客户信息匹配电费账单信息;围绕电费电量疑问开展交互式诊断分析;帮助分析开通峰谷用电可行性;帮助分析电费频繁催交闹心事。测试环境下,电力账单AI解读的应用让电费账单服务交互效率提高超50%、人工处理工单量下降超70%。
除了朗新集团,央视网、亚信科技等企业也都已率先在阿里云百炼上开发专属模型和应用,大模型正引发千行百业的新一轮创新。
百炼以平台形式提供服务,可以让企业的业务和技术团队通过平台上的模型工具快速训练出SFT专属模型,并通过智能体API关联搜索引擎服务,快速构建大模型应用。
例如,某手机厂商通过在百炼上对业务数据进行SFT训练并定制Prompt改写和安全模块,加之某搜索引擎的实时信息检索能力,实现通识类问答和文案撰写,解决了传统手机助手在语义识别方面能力差、不具备通识问答和生成等痛点。
百炼也支持企业使用智能体API和RAG插件,搭配企业自定义API插件,快速构建大模型服务应用。
例如,某软件服务公司通过百炼的插件功能,关联企业的“工单创建”接口及其他5个数据查询接口,同时使用预置的“文档检索”功能,实现企业数据、企业文档打通的大模型问答。客户服务场景下的智能客服问答,解决了大量客服人物问题,也克服了传统客服机器人数据查询、工单创建能力差等弊端。
企业对智能技术的应用需求正在加深,阿里云百炼也将持续加码模型服务,基于阿里云丰富的底层计算能力与通义系列模型的最佳实践,构建训练评测、标注、部署全生命周期模型工具,帮助企业、开发者在云上一站式调用、优化大模型,成为大模型时代的商业化基础设施。