前言
从去年的“百模大战”开始,各大厂商卷模型、卷参数、卷应用,科技巨擘们无不在这片新兴的智能疆域中厉兵秣马,力求在技术的深度与应用的广度上抢占先机。就在这场关乎未来智能版图划分的激烈角逐中,阿里云于2023年的杭州云栖大会上,揭开了“百炼”的神秘面纱。
“百炼”之名,寓意深远,它蕴含了对技术不断锤炼、精益求精的追求,同时也寄寓了对大模型技术广泛应用的期许。该平台集成了通义大模型、行业特有模型以及第三方优秀模型的综合优势,为用户提供了一个高度集成、灵活定制的开发环境。无论是对于寻求智能化转型的企业,还是渴望在AI领域大展拳脚的个人开发者,“百炼”都提供了一把钥匙,打开了通往高效模型开发与快速应用部署的大门。实质上,“百炼”就是专门为大模型落地而打造的开发和应用全套工具链,让大模型的生产像“喝水”一样简单。这种简单化无疑把大模型的训练和应用成本以及方便性拉到新低,让更多的开发者能够进入到大模型生态中来,启发新的大模型应用。
作者本人近期也是在研究大模型的落地相关,先后参加了百度云千帆AppBuilder、Coze智能体、腾讯元器、本地大模型知识库调优等比赛,也是取得了不错的成绩,还算是稍微有一些AI Agent开发经验的,这次来写阿里云百炼大模型开发平台的评测,一来是想和各位分享一下自己关于这方面的见解,另一方面也是抱着学习的心态,想来好好感受一下百炼的与众不同。
这里我也可以先说一下结论,百炼大模型开发平台确实是不同于其他几个友商的平台(不吹不黑,实话实说,此处不论优劣),下面我们详细来说。
另外,此处也附上学习地址和评测地址,欢迎朋友们学习和交流!
何谓百炼?
大模型服务平台百炼是一站式的企业专属大模型生产平台,基于通义基础大模型,提供企业专属大模型开发和应用的整套工具链。
在产品文档中,有两张图我认为比较重要,也很具有代表性,在此特意摘出:
五级引擎不仅构成了产品技术架构的骨架,也成为了支撑企业“三大核心竞争力”的脊梁,是百炼平台的核心特点。
百炼大模型服务平台
点击进入控制台,主要界面如下:
最主要的功能模块都在左侧栏中,分为模型中心-灵积、应用中心、数据中心、系统管理,下面我们分别详细介绍。
模型中心-灵积
其下包含三个子模块,为模型广场、模型体验、模型工具。
模型广场
模型广场提供多种模型选择,包括通义系列模型、三方开源模型、行业领域模型等,可以依据业务需求选择合适的模型进行接入,这里可以简单理解成类似于国外huggingface,而百炼里面这一块应该是由阿里魔搭社区提供的。
点击任一模型,可以查看其详情,包括:基础信息介绍、计费详情、子空间授权。
同时下方可以执行更多操作,包括一键部署至服务、对模型进行评测、一键创建应用、模型在线体验、查看API示例。
模型体验
模型体验下分为模型体验和模型调试两个功能栏。
在模型体验栏下,可选择1-3个模型快速体验或对比模型效果,但是体验模型将会消耗Tokens。
基础测试效果如下,在实际使用中可以通过先对比整体效果,再选择最合适的模型来作为模型基底,但是由于有随机性,所以建议至少采用10次以上的轮询问答方式来协助确认最佳模型。
在模型调试下,是通过一些参数来限定模型回答的生成内容,主要可调参数如下:
system:系统人设,可以理解成强设定,对回答影响的权重较高。
top_p:控制核采样方法的概率阈值,取值越大,生成的随机性越高。
temperature:控制生成随机性和多样性,范围(0,2)。建议该参数和top_p只设置1个。
stop:用于控制生成时遇到某些内容则停止。您可传入多个字符串。
enable_search:是否参考搜索的结果,默认false。
【注释】:这里还是想多嘴稍微解释一下top_p和temperature的含义。
top_p:假如你在图书馆想找一本书来阅读,而top_p就像是你给自己设定的一个标准,用来决定从最受欢迎的书籍中选择。比如,如果你将top_p设为0.8,就意味着你只会考虑那些占所有推荐书籍80%受欢迎度的书籍。换句话说,你只关注最热门、最常被借阅的那部分书籍。这样一来,选择相对集中在少数几本非常热门的书籍上,随机性较低,因为你很可能会借到大家都认为好的书。如果top_p值增大,你考虑的范围就会扩大到更多稍微冷门一些的书,随机性也随之提高。
temperature:把这个参数想象成是图书管理员为你推荐书籍时的“灵活度”。如果temperature很低,就像是图书管理员严格按照畅销榜给你推荐书,推荐的书目非常经典、安全(类似于总是选择已知的热门书籍)。而如果temperature高,图书管理员就变得更加灵活,可能会从各种各样的角落里找出一些不那么知名但可能非常适合你的书籍,这样的推荐更加多样化且充满惊喜。当temperature高于1时,推荐就可能变得非常随意,甚至有些书的选择看起来近乎随机,就像是闭着眼睛从书架上随便抽一本那样。调节temperature,就像是在告诉图书管理员在推荐时是应该保守还是大胆尝试新奇。
而右侧的为调试栏,可以实时显示模型的返回内容,方便对结果进行评估。
模型工具
模型工具下主要包括模型调优、模型评测、模型部署。
模型调优
模型调优是通过Fine-tuning训练模式提高模型效果的功能模块,作为重要的大模型效果优化方式,用户可以通过构建符合业务场景任务的训练集,调整参数训练模型,训练模型学习业务数据和业务逻辑,最终提高在业务场景中的模型效果。
一般来讲,模型调优有四个主要过程,包括:
数据准备:构建适合训练的训练数据集,一般来是问答Pair的组合,基于不同任务有不同的呈现形态。
模型调优:通过选择合适的数据集,调整参数,训练特定的模型以提高模型效果,可通过训练过程/结果指标初步判断训练效果。
模型部署:训练好的模型需要部署后方可提供推理服务(评测、应用调用均需先部署模型)。
模型数据:构建合适的评测数据集,针对已经训练好的模型进行评测,通过评测系统进行打分或标注,验证模型调优的效果。
点击【训练新模型】:
选择【训练方式】,此处包括:全参训练和高效训练:
全参训练:影响模型全量参数的微调训练,效果较好
高效训练:影响模型局部参数的微调训练,效果接近或略差于全参训练
而这两个的主要区别我也在此解释一下:
全参训练的优势在于能在预训练模型的基础上,不对模型进行任何参数冻结,允许所有参数根据新的任务数据进行更新和优化的过程。这意味着模型的所有权重都会根据新任务的需求进行调整,由于模型的所有参数都被用于适应新任务,因此往往能取得较好的性能表现,特别是在任务与原始预训练任务相差较大时。但是,由于模型参数数量庞大,每一次迭代都要更新全部参数,所以全参训练需要更多的计算资源和时间。因此,全参训练适合于那些对模型精度有极高要求,且资源限制相对较小的任务,或者是当预训练模型与目标任务之间的差异较大,需要模型做出较大调整的情况。
高效训练,也可以叫做局部参数微调,主要是指仅对模型的部分参数(通常是顶层或新增的层)进行微调,而保留模型主体(尤其是底层的通用特征提取层)的参数不变。这种方法认为预训练模型的底层已经学习到了良好的通用特征,只需对任务特定的部分进行调整。相比全参训练,高效训练的效果可能稍逊一筹或接近,特别是当微调任务与预训练任务相似时,模型的大部分知识是可迁移的。但由于只需要更新部分参数,所以在计算资源和训练时间上更为节省,适用于资源有限的环境。因此,局部参数微调适用于资源受限、任务与预训练任务较为接近,或者快速原型验证等场景,能够在保证一定性能的同时,大幅降低训练成本。
最终选择哪种策略,需根据具体任务需求、资源条件及对模型性能的期望来决定。
下一步是【选择模型】:目前支持预置模型和自定义模型,首次新增模型训练时无可选自定义模型,即可以将之前训练过的模型进行多次训练。
而关于如何选择模型版本,这里也可以给出一些建议:
对于微调训练模型可以支持企业自定义训练数据,完成模型的微调训练,微调训练将影响模型的效果,选择合适的数据将使得模型效果更加适配企业的业务需求。企业可以选择基于企业专属大模型的基线版本进行微调,也可以选择基于已微调的模型版本上进行进一步微调。
下一步开始【训练数据】,点击【选择数据集】按照操作引导,跳转到【训练数据】页面上传数据内容,数据内容至少40条内容。支持xls、xlsl格式。需下载模板后进行上传。
点击下载模板:
训练集格式如下:
按照格式要求填写好之后,需要点击【发布】:
回到【训练数据】的步骤,可以选择发布后的训练集。
接下来为【验证数据】,验证数据通常参与训练过程的效果验证,可以选择基于训练数据自动切分或额外上传验证数据集,系统将自动计算验证结果并展示在训练结果页面中。
自动切分:在训练模型前,利用算法自动从原始数据集中划分出训练集和验证集(有时还包括测试集)。这通常通过设置一个比例或特定的参数来实现,例如在Keras中,可以通过validation_split参数指定一部分数据作为验证集。自动切分简化了数据准备过程,减少了手动创建验证集的工作,同时确保了数据划分的随机性,有助于模型泛化能力的评估。但在数据量较少时,自动切分可能会导致训练集或验证集的样本量过小,影响模型训练或验证的准确性。
上传验证数据集:是指研究者或开发者手动准备一个独立的验证数据集,并将其上传至模型训练系统中。这个数据集与训练集是分开的,专门用于评估模型在未见过的数据上的表现。这种方式给予用户更大的灵活性,可以选择特定的、代表性的数据作为验证集,从而更准确地反映模型在实际应用中的性能。但是需要更多时间和专业知识来维护这个独立的验证集,且如果选择不当,可能无法充分反映模型的泛化能力。
这里我选择默认的自动切分。
下面是比较有特色的一个功能——【混合训练】。通用混合训练支持用户将自身训练数据与采样的千问基础模型通用多领域、多行业、多场景数据混合,进行训练,从而提高训练效果,避免基础模型能力的遗失,注意,选择混合训练后,混合采样的数据将计入训练Token数据量中,一并计费,平台支持选择多个基础训练数据进行混合训练。总之,混合训练策略是一种精细化调整模型性能的方法,通过精心设计的数据比例,力求在保持模型广泛适用性的同时,增强其在特定方向上的能力。
比如:中文-对话 1.1倍 >> 自主训练数据:基础模型中文对话数据以1:1.1的比例混合训练,表示在进行模型训练时,每1单位的自主训练数据将与1.1单位的基础模型中文数据混合,这样能够使训练后的模型在中文表现上更加优于基础模型。
最后一步是【超参配置】。可以设置的参数如下:
循环次数:循环次数代表模型训练过程中模型学习数据集的次数,可理解为看几遍数据,一般建议的范围是1-3遍即可,可依据需求进行调整,推荐范围:[1,200]。
学习率:学习率代表每次更新数据的增量参数权重,学习率数值越大参数变化越大,对模型影响越大。
批次大小:批次大小代表模型训练过程中,模型更新模型参数的数据步长,可理解为模型每看多少数据即更新一次模型参数,一般建议的批次大小为16/32,表示模型每看16或32条数据即更新一次参数。
这里一般建议使用默认配置。
最后会出现一张总览表,选择开始训练即可。
模型评测
通过模型评测,来检验训练出来的模型是否能够给出自己所期望的结果。
完成模型部署后,如需测试模型的效果,可在模型评测中进行评测,模型评测需要首先构建评测的数据集,构建方法类似于训练集的构建,数据格式同样是问答Pair对,对于Prompt而言往往是需要验证的问题,对于Completion而言往往是评测参考的答案,最终通过对比模型结果与参考答案,同时综合考虑模型结果的正确性,对模型结果进行打分或排序,得到模型真实效果。
模型评测有三种模式,解释如下:
单个评测:单个评测主要用来评测单一模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测模型结果,并且同时展示评测集中预置的评测结果作为参考,针对模型预测结果进行打分后,可判断模型效果。
对比评测:对比评测主要用来评测多个模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测每个模型的结果,并且同时展示评测集中预置的评测结果作为参考,对比评测支持针对每个参与评测的模型进行打分,同时支持模型排序,通过评测结果可判断不同模型之间的效果差异。
基线评测(新增):系统预置多种能力常用评测集及评测脚本,一键自动评测模型多种基本能力水平自动计算得分,建议用于微调训练后的特定模型的基本能力效果评测,建议用于微调后模型基本效果的评测,避免能力的下降和丢失。
一般训练或部署了单个模型的情况下,建议进行单个评测;如果训练或部署了多个模型,希望对比不同模型的效果,则可选择对比评测模式进行评测;对单个模型的综合能力进行测试时,采用基线评测。
这里解释一下单个评测和基线评测的区别:
单个评测:主要应用于评估一个模型在特定任务或数据集上的表现。这通常涉及到选取一个预定义的评测集,该集合包含了一系列的问题(Prompt)或任务实例,用于测试模型的理解、生成、分类等能力。
基线评测:更为全面的评测方法,特别适合于微调(Fine-tuning)后的模型评估。当模型经过针对特定目标的微调训练后,需要确保其核心或基础能力没有退化。
具体评测方式也是比较容易,点击创建评测任务:
选择对应的评测方式:
点击管理评测集:
点击新增数据集:
点击选择评测集,导出模板填写之后再上传:
点击发布之后,再回到评测中去选择:
选择默认综合评测维度:
点击开始测评即可:
模型部署
模型部署支持用户部署训练完成的模型或系统预置的模型,模型需要部署成功后方可正式提供模型服务,用于模型调用或评测,模型部署支持使用预付费资源和后付费资源两种方式,模型部署成功后将持续计费,支持随时扩缩容或上下线,下线后此模型将不再计费。
点击【下一步】选择对应的资源配置:
包月资源:选择已购买的包月预付费资源组,不同的模型所需要的资源不同,选择模型后,系统将自动筛选需要的资源类型,预付费资源按月售卖,性价比更高
按量付费:选择后付费的模式,即刻完成部署,系统将在部署成功后开始计费,付费模式更加动态,无到期时间,随时上下线。
如果偶尔用,推荐按量付费。
点击【开始部署】等待状态更新为部署成功。
系统将弹窗告知部署所需的费用,点击确认后,系统将开始部署,部署成功后开始收费。
小结
纵观整个模型中心-灵积下,都是关注对模型本身微调和定制的功能,相较于友商,这是百炼平台最大的优点之一。在微调之后的模型基础下进行应用开发,不仅能够更精准地贴合业务场景的特定需求,还能在一定程度上提升模型的泛化能力,确保在面对新数据时表现稳定。这种高度定制化的服务模式,是让百炼平台能够在众多AI解决方案提供商中脱颖而出,为不同行业、不同规模的客户提供了极具竞争力的优势。
应用中心
其下包含三个子模块,为应用广场、我的应用、应用组件。
应用广场
这里是官方预置完整工程链路的应用或预置场景prompt的应用,通过应用将通义系列大模型接入到业务解决方案中,可以理解成类似于ChatGPT的应用商店,但是不同的是,这里不支持直接使用,因为百炼是一个开发平台,所以这里提供的快捷开发应用的模板。
比如我此时想创建一个旅行规划专家,直接点击此处的【基于此模板创建应用】即可:
由于模板已经有过调优,所以也不必额外再修改,有需要的话也可以根据自己的需求进行一些修改:
我的应用
此处可以看到我创建的所有应用。创建应用后,通过对应的PaaS接口即可调用大模型能力,可在应用管理中管理创建的各类模型调用应用。
点击发布后,可以采用接口直接调用该服务:
应用组件
应用组件下包括:Prompt工程、插件管理、流程管理、应用评测。
Prompt工程
Prompt工程通过设计和改进prompt使大模型能够更准确、可靠地执行特定任务,平台为您提供了Prompt模板、Prompt优化等一系列Prompt工程工具。
Prompt模板包括 系统模板 和 自定义模板 两种类型,其中 系统模板 为阿里云百炼官方提供,包括文案风格改写、商品推广文案生成 等模板;自定义模板为您自定义创建的模板。
可以单击系统模板上的查看详情按钮查看该模板的模板内容、变量、ID等信息.
单击调用按钮弹出模板调用的代码示例,可以根据示例将Prompt模板直接集成到系统中,详情可见调用文档。
同样,我们也可以选择自定义模板。点击【新增模板】按钮,输入模板名称和模板内容。其中模板内容支持通过 ${ } 符号引入变量,系统会自动识别模板内容中的变量并显示在模板包含变量中。单击 保存 按钮即可完成模板创建。
点击创建之后我们可以看到自己创建的模板如下:
我们亦可以直接在线进行调试,点击Prompt接口调用文档
点击调试:
分别输入关键参数:
AgentKey: 业务空间key。
PromptId: 对应的PromptId。
Vars: 需要传入给Prompt的参数。
这里显示的调用成功了,返回为200:
但是有的朋友会问如果Prompt效果不佳怎么办?这不用担心,百炼也提供了Prompt优化能力。
比如我把我的一周菜谱助手丢进去,它会协助优化如下,其实整体大差不差,如果碰到比较复杂的prompt模板,则建议在此进行反复优化后调用:
插件管理
插件是应用的一个重要功能,能够增强大语言模型的生成能力,更好地在业务场景下落地。目前提供两类插件:官方插件和自定义插件。
目前,官方插件仅有四个,并且其中两个还要申请才可以使用,还是有些少了:
所以,更多的希望还是放在自定义插件上,我们点击新建自定义插件按钮,进入插件创建页面。
在自定义插件中,编辑插件信息,包括:
插件名称:自定义插件的名称。
插件ID:建议您输入具有语义的英文名称,例如:search、weather等。在您点击“创建完成”后,系统将为您生成全局唯一的插件ID。
插件描述:请使用自然语言描述插件的功能,尽量给出使用示例。例如:“此插件用于获取指定时间和指定地点的天气和温度。例如杭州明天是否下雨”。 API时,请使用系统最终生成的ID。
是否鉴权:当阿里云百炼调用您的自定义插件时是否进行鉴权,系统支持无鉴权、服务级鉴权和用户级鉴权三种方式。
流程管理
这里就是目前大名鼎鼎的workflow工作流了,通过流程画布的节点自定义业务流程,对接智能体应用,实现智能体对业务流程的调度,满足复杂及指定业务场景需求。
创建编排流程:新建流程,根据业务需求通过编排设计画布节点的执行逻辑,系统支持大模型节点、脚本节点等多种节点类型。
测试发布流程:完成流程创建后,可测试流程联通性,调整节点关系或优化脚本代码,完成测试后可发布流程。
应用流程:创建智能体应用,在智能体应用中选择流程,智能体将自动调度及执行流程。
比如说我这里创建一个每日星座运势助手
进入后如图所示,就是非常友好的低代码界面:
对于星座运势的实现,我们可以选择第三方平台接API,也可以直接给大模型让其在流程内实现。
第一步自然是选择开始结点,对于API来说,调用需要上游参数:
而后选择API节点,填入URL、参数头、输入参数等信息,测试调用即可:
而采用大模型的方式则是选择大模型节点:
在大模型处引入上游的出参作为大模型节点的入参:
最终调试后结果如图所示:
反正星座这玩意是纯娱乐,依靠第三方接口和大模型结果都是差不多的,如果涉及到生活方面比如美团查评分、携程查车票等等,这些还是使用官方提供的接口来制作比较好。
应用评测
应用评测基于应用维度评估模型或应用的真实使用效果,通过批量评测、拉取模型或应用的线上日志数据,端到端评估应用效果,支持使用评测集完成批量评测,或采样应用线上日志数据进行评测,可根据业务需要进行选择。
一般是需要先准备评测集:
也是下载模板后再上传上去:
在评测集创建完之后,开始创建评测任务:
这里分为应用批量评测和模型日志评测:
应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证
模型日志评测:适用于上线后拉取真实用户数据验证或回测业务线上效果
选择应用批量评测,然后上传准备好的评测集:
选择评测维度,未配置的话以默认为准,评测维度详情可以查看维度管理。
开始评测。 任务名称可以自定义修改。可以查看评测任务的完整信息。以及预估费用展示。确认后点击开始评测。
评测需要一段时间,评测完成后可以查看结果:
而模型日志评测则是适用于上线后拉取真实用户数据验证或回测业务线上效果,对这一段时间内的模型日志进行分析,以此判断其回答的准确性和真实性。
选择采样方式。并输入采样总量,因为我没有用过这个,所以用量为0。
顺序采样:按照对话日志对话顺序依次采样,从第一条开始,采样至总量中的最后一条。
随机采样:随机进行采样,采样至总量停止。
预计总量:通过选择采样时间段来采样数据,默认采样一周以内数据,选择时间段后,系统将自动该时间段内预估的数据量。
采样总量:总数不能大于预估总量且不能小于1。
点击下一步,开始评测。
测评后同样也是可以在任务列表中看到,并且可以查看评测后的报告及日志结果。
小结
对于应用的开发和管理,功能也是很丰富的,且不同于其他友商的是,百炼大模型平台是完完全全的把开发和应用使用分开了。百炼就只是单纯的进行模型的开发、训练与优化,而将应用的开发与管理留给用户自由发挥,这样更能够打造一个高度解耦、灵活多变的生态系统。
除此之外,百炼大模型平台在应用开发工具的丰富度上确实也是略胜一筹,比较核心的两个:Prompt工程和应用评测,是我个人比较满意的,并且也是对最终模型效果的呈现起着关键作用的。
数据中心
数据中心主要包括数据管理、数据处理、知识索引、模型数据四个部分。
数据管理
这里是百炼平台统一的数据管理模块,支持多源、多格式的结构化及非结构化数据管理,支持多类目管理及自动化在线解析,应用于RAG、训练等模块。
左侧可以自定义目录,右侧可以直接导入数据:
数据处理
数据处理可支持用户使用不同的模型算子,针对数据进行预处理,如数据去重、长度过滤、信息过滤、内容过滤等处理方式,清洗为满足需求的数据。
分为数据清洗和数据增强。
点击数据清洗:
选择【数据来源】和【预制算子】:
点击确认,即可在任务上看到:
同理,点击数据增强,创建增强任务:
知识索引
创建和管理用于RAG应用的知识库索引,基于对数据中心的统一引用。
在创建时,有以下几点需要注意:
知识库名称:必填项。
数据类型:目前暂时只支持,非结构化数据。
配置模式:分为推荐配置和自定义。大部分情况下选择推荐配置即可。
相似度阈值:设定最低分数标准,只有超过这个阈值的检索结果才会被考虑用于后续的生成过程。既不能过大也不能过小,所以可能需要根据结果反复尝试。
向量存储类型:默认为内置,也可以授权ADB-PG实例。
点击下一步,选择类目中的数据,及数据处理方式:
智能切分:在通用文档上的最优chunk切分方法,经过评测可在多数文档上获得最佳的检索效果
自定义切分:完全开放的chunk切分配置,按照实际文档情况自由配置,通过调试获得更好的检索效果
普通知识库文档这里建议直接使用智能切分就好了。
最后选择导入完成,即可完成知识检索的创建。
模型数据
模型数据支持创建不同数据类型的数据集,包括训练集、评测集,支持多版本数据管理,发布后可前往模型调优/评测功能使用。
这一块前面也提到过,在此不过多赘述了,前面的创建数据集和评测集都是跳转至此处完成的。
小结
这一块的功能也算是中规中矩吧,是大模型开发平台的一个基本功能,但是对比起来仍有一些优势特别是数据处理这个模块,能够支持用户对数据进行预处理,而不是仅仅单一的让用户导入个知识库就完了,这个功能是很不错的!
系统管理
最后一个是系统管理,也就是所谓的总览界面。
里面包含调用统计、评测维度、用户管理、角色管理。
调用统计
查看专属模型的用量统计,以获得模型的使用情况。
评测维度
依据评测需求增加维度模板,支持自定义多级维度、多级分数,预置多种维度模板,可应用于主流评测任务。
用户管理
支持引入阿里云RAM子账号,实现多用户同时操作。
角色管理
为阿里云子账号进行角色管理,以实现功能权限隔离。
小结
系统管理模块汇总了核心管理功能,包括调用统计以监控模型使用状况,评测维度以灵活自定义评估标准,以及用户和角色管理来确保多用户环境下操作的安全与权限控制,为平台提供了一个强大而全面的管控中心。
体验及建议
这篇文章是边写边好好的把百炼平台的能力全部体验了一遍,自然也是包括了本次评测活动要求的几点内容的,这里我汇总到一起再谈一下感受。
首先从功能上来说,百炼平台确实是比较全面了,综合上述谈到的四大模块,涵盖了从底层模型定制及调优到应用流设计再到应用调用与管理的全链条服务。平台不仅提供了强大的模型训练与优化工具,如灵活的微调策略、智能与自定义的切分方式,还内置了丰富的评测维度和调用统计功能,让开发者能够全方位、多层次地理解和优化模型性能。这一点在实际操作中是尤为重要的。
而百炼具有优势的几个功能,我认为是以下几个,这里也是分别对应上文每个小结的内容:
模型中心-灵积,都是关注对模型本身微调和定制的功能,这是百炼平台最大的优点之一。在微调之后的模型基础下进行应用开发,不仅能够更精准地贴合业务场景的特定需求,还能在一定程度上提升模型的泛化能力,确保在面对新数据时表现稳定。这种高度定制化的服务模式,是让百炼平台能够在众多AI解决方案提供商中脱颖而出,为不同行业、不同规模的客户提供了极具竞争力的优势。
应用的开发和管理下,比较核心的两个:Prompt工程和应用评测,是我个人比较满意的,并且也是对最终模型效果的呈现起着关键作用的。
数据中心下,数据处理这个模块,能够支持用户对数据进行预处理,而不是仅仅单一的让用户导入个知识库就完了,这个功能是很不错的!
就这几天的体验来看,整体还是不错的,文档教程确实也够清晰,但是有时候也会碰到一些莫名的问题。
比如我在自定义流程时,不明白这里为啥一直有个默认的query参数,就觉得很奇怪:
一开始我也不知道这个参数填啥,就填的数字,结果一直报错:
关键是报错信息也不提示,我也不知道为啥,后来找了半天才在最佳实践里面看到这里要填“问答”
最后还是按照这个调整好了:
所以这里也希望在流程管理里面也能像prompt工程那样预制一些系统模板,比如说把最佳实践的案例预设进行,也能方便用户快速学习和上手,至少给1~2个让用户能体验体验,这样才会更加直观地感受到平台的强大与便捷。
还有一个建议是关于社区生态方面的,不知道是不是我的错觉,其实阿里自去年推出百炼后现在一直处于一个不温不火的状态,用的人少了,也导致社区内容少;内容少了新手不容易上手,就会导致新用户流失,这形成了一个恶性循环。
个人建议可以适当考虑每月举行一次开发比赛或者一些圆桌论坛、线上会议等活动,形成以百炼开发平台为核心的百炼社区生态系统。
展望
展望未来,随着“百炼”大模型开发平台的不断成熟与推广,其在促进大模型技术民主化、加速AI应用创新方面的作用将愈发显著。
而经历了“百模大战”的激烈竞争后,阿里云“百炼”也以其独特的定位和全面的服务体系,正逐步构建起一个包容性更强、创新活力更旺盛的AI生态系统,下面,我想引用《云栖战略参考》的一句话来结尾:
大模型应用的表象炫人眼目,但内里却早已发生了巨变,通过千锤“百炼”,得其筋骨,大模型应用才能一步步丰满起来。。。。。这场属于所有人的技术革命,也是对“百炼”平台愿景的最好诠释——让大模型技术的每一次“锤炼”,都能为世界带来实实在在的改变与福祉。