精铸智刃·“百炼”成钢——深度探索阿里云百炼大模型开发平台

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
日志服务 SLS,月写入数据量 50GB 1个月
简介: 阿里云百炼平台是一个一站式的大型语言模型开发和应用平台,旨在帮助企业与开发者高效构建和部署定制化的大模型。平台集成了通义大模型、行业模型和第三方模型,提供模型微调、模型调优、模型部署、模型评测等工具链。用户可以轻松创建和管理模型,通过模型广场选择合适的模型,进行模型体验和调优,然后部署模型以供应用调用。

前言

从去年的“百模大战”开始,各大厂商卷模型、卷参数、卷应用,科技巨擘们无不在这片新兴的智能疆域中厉兵秣马,力求在技术的深度与应用的广度上抢占先机。就在这场关乎未来智能版图划分的激烈角逐中,阿里云于2023年的杭州云栖大会上,揭开了“百炼”的神秘面纱。

百炼”之名,寓意深远,它蕴含了对技术不断锤炼、精益求精的追求,同时也寄寓了对大模型技术广泛应用的期许。该平台集成了通义大模型、行业特有模型以及第三方优秀模型的综合优势,为用户提供了一个高度集成、灵活定制的开发环境。无论是对于寻求智能化转型的企业,还是渴望在AI领域大展拳脚的个人开发者,“百炼”都提供了一把钥匙,打开了通往高效模型开发与快速应用部署的大门。实质上,“百炼”就是专门为大模型落地而打造的开发和应用全套工具链,让大模型的生产像“喝水”一样简单。这种简单化无疑把大模型的训练和应用成本以及方便性拉到新低,让更多的开发者能够进入到大模型生态中来,启发新的大模型应用。

image.png

作者本人近期也是在研究大模型的落地相关,先后参加了百度云千帆AppBuilder、Coze智能体、腾讯元器、本地大模型知识库调优等比赛,也是取得了不错的成绩,还算是稍微有一些AI Agent开发经验的,这次来写阿里云百炼大模型开发平台的评测,一来是想和各位分享一下自己关于这方面的见解,另一方面也是抱着学习的心态,想来好好感受一下百炼的与众不同。

这里我也可以先说一下结论,百炼大模型开发平台确实是不同于其他几个友商的平台(不吹不黑,实话实说,此处不论优劣),下面我们详细来说。

另外,此处也附上学习地址和评测地址,欢迎朋友们学习和交流!

阿里云百炼实训营

百炼控制台

评测活动地址

何谓百炼?

大模型服务平台百炼是一站式的企业专属大模型生产平台,基于通义基础大模型,提供企业专属大模型开发和应用的整套工具链。

在产品文档中,有两张图我认为比较重要,也很具有代表性,在此特意摘出:

image.png
image.png

五级引擎不仅构成了产品技术架构的骨架,也成为了支撑企业“三大核心竞争力”的脊梁,是百炼平台的核心特点

百炼大模型服务平台

点击进入控制台,主要界面如下:

image.png

最主要的功能模块都在左侧栏中,分为模型中心-灵积应用中心数据中心系统管理,下面我们分别详细介绍。

image.png

模型中心-灵积

其下包含三个子模块,为模型广场模型体验模型工具

模型广场

模型广场提供多种模型选择,包括通义系列模型、三方开源模型、行业领域模型等,可以依据业务需求选择合适的模型进行接入,这里可以简单理解成类似于国外huggingface,而百炼里面这一块应该是由阿里魔搭社区提供的。

image.png

点击任一模型,可以查看其详情,包括:基础信息介绍、计费详情、子空间授权。

image.png

同时下方可以执行更多操作,包括一键部署至服务、对模型进行评测、一键创建应用、模型在线体验、查看API示例。

image.png
image.png

模型体验

模型体验下分为模型体验模型调试两个功能栏。

在模型体验栏下,可选择1-3个模型快速体验或对比模型效果,但是体验模型将会消耗Tokens。

image.png

基础测试效果如下,在实际使用中可以通过先对比整体效果,再选择最合适的模型来作为模型基底,但是由于有随机性,所以建议至少采用10次以上的轮询问答方式来协助确认最佳模型。

image.png

在模型调试下,是通过一些参数来限定模型回答的生成内容,主要可调参数如下:

  • system:系统人设,可以理解成强设定,对回答影响的权重较高。

  • top_p:控制核采样方法的概率阈值,取值越大,生成的随机性越高。

  • temperature:控制生成随机性和多样性,范围(0,2)。建议该参数和top_p只设置1个。

  • stop:用于控制生成时遇到某些内容则停止。您可传入多个字符串。

  • enable_search:是否参考搜索的结果,默认false。

【注释】:这里还是想多嘴稍微解释一下top_p和temperature的含义。

  • top_p:假如你在图书馆想找一本书来阅读,而top_p就像是你给自己设定的一个标准,用来决定从最受欢迎的书籍中选择。比如,如果你将top_p设为0.8,就意味着你只会考虑那些占所有推荐书籍80%受欢迎度的书籍。换句话说,你只关注最热门、最常被借阅的那部分书籍。这样一来,选择相对集中在少数几本非常热门的书籍上,随机性较低,因为你很可能会借到大家都认为好的书。如果top_p值增大,你考虑的范围就会扩大到更多稍微冷门一些的书,随机性也随之提高。

  • temperature:把这个参数想象成是图书管理员为你推荐书籍时的“灵活度”。如果temperature很低,就像是图书管理员严格按照畅销榜给你推荐书,推荐的书目非常经典、安全(类似于总是选择已知的热门书籍)。而如果temperature高,图书管理员就变得更加灵活,可能会从各种各样的角落里找出一些不那么知名但可能非常适合你的书籍,这样的推荐更加多样化且充满惊喜。当temperature高于1时,推荐就可能变得非常随意,甚至有些书的选择看起来近乎随机,就像是闭着眼睛从书架上随便抽一本那样。调节temperature,就像是在告诉图书管理员在推荐时是应该保守还是大胆尝试新奇。

image.png

而右侧的为调试栏,可以实时显示模型的返回内容,方便对结果进行评估。

image.png

模型工具

模型工具下主要包括模型调优模型评测模型部署

模型调优

模型调优是通过Fine-tuning训练模式提高模型效果的功能模块,作为重要的大模型效果优化方式,用户可以通过构建符合业务场景任务的训练集,调整参数训练模型,训练模型学习业务数据和业务逻辑,最终提高在业务场景中的模型效果。

image.png

一般来讲,模型调优有四个主要过程,包括:

  • 数据准备:构建适合训练的训练数据集,一般来是问答Pair的组合,基于不同任务有不同的呈现形态。

  • 模型调优:通过选择合适的数据集,调整参数,训练特定的模型以提高模型效果,可通过训练过程/结果指标初步判断训练效果。

  • 模型部署:训练好的模型需要部署后方可提供推理服务(评测、应用调用均需先部署模型)。

  • 模型数据:构建合适的评测数据集,针对已经训练好的模型进行评测,通过评测系统进行打分或标注,验证模型调优的效果。

点击【训练新模型】:

image.png

选择【训练方式】,此处包括:全参训练高效训练

  • 全参训练:影响模型全量参数的微调训练,效果较好

  • 高效训练:影响模型局部参数的微调训练,效果接近或略差于全参训练

image.png

而这两个的主要区别我也在此解释一下:

  • 全参训练的优势在于能在预训练模型的基础上,不对模型进行任何参数冻结,允许所有参数根据新的任务数据进行更新和优化的过程。这意味着模型的所有权重都会根据新任务的需求进行调整,由于模型的所有参数都被用于适应新任务,因此往往能取得较好的性能表现,特别是在任务与原始预训练任务相差较大时。但是,由于模型参数数量庞大,每一次迭代都要更新全部参数,所以全参训练需要更多的计算资源和时间。因此,全参训练适合于那些对模型精度有极高要求,且资源限制相对较小的任务,或者是当预训练模型与目标任务之间的差异较大,需要模型做出较大调整的情况。

  • 高效训练,也可以叫做局部参数微调,主要是指仅对模型的部分参数(通常是顶层或新增的层)进行微调,而保留模型主体(尤其是底层的通用特征提取层)的参数不变。这种方法认为预训练模型的底层已经学习到了良好的通用特征,只需对任务特定的部分进行调整。相比全参训练,高效训练的效果可能稍逊一筹或接近,特别是当微调任务与预训练任务相似时,模型的大部分知识是可迁移的。但由于只需要更新部分参数,所以在计算资源和训练时间上更为节省,适用于资源有限的环境。因此,局部参数微调适用于资源受限、任务与预训练任务较为接近,或者快速原型验证等场景,能够在保证一定性能的同时,大幅降低训练成本。

最终选择哪种策略,需根据具体任务需求、资源条件及对模型性能的期望来决定。

下一步是【选择模型】:目前支持预置模型和自定义模型,首次新增模型训练时无可选自定义模型,即可以将之前训练过的模型进行多次训练。

而关于如何选择模型版本,这里也可以给出一些建议:

对于微调训练模型可以支持企业自定义训练数据,完成模型的微调训练,微调训练将影响模型的效果,选择合适的数据将使得模型效果更加适配企业的业务需求。企业可以选择基于企业专属大模型的基线版本进行微调,也可以选择基于已微调的模型版本上进行进一步微调。

image.png

下一步开始【训练数据】,点击【选择数据集】按照操作引导,跳转到【训练数据】页面上传数据内容,数据内容至少40条内容。支持xls、xlsl格式。需下载模板后进行上传。

image.png

点击下载模板:

image.png

训练集格式如下:

image.png

按照格式要求填写好之后,需要点击【发布】:

image.png

回到【训练数据】的步骤,可以选择发布后的训练集。

image.png

接下来为【验证数据】,验证数据通常参与训练过程的效果验证,可以选择基于训练数据自动切分或额外上传验证数据集,系统将自动计算验证结果并展示在训练结果页面中。

  • 自动切分:在训练模型前,利用算法自动从原始数据集中划分出训练集和验证集(有时还包括测试集)。这通常通过设置一个比例或特定的参数来实现,例如在Keras中,可以通过validation_split参数指定一部分数据作为验证集。自动切分简化了数据准备过程,减少了手动创建验证集的工作,同时确保了数据划分的随机性,有助于模型泛化能力的评估。但在数据量较少时,自动切分可能会导致训练集或验证集的样本量过小,影响模型训练或验证的准确性。

  • 上传验证数据集:是指研究者或开发者手动准备一个独立的验证数据集,并将其上传至模型训练系统中。这个数据集与训练集是分开的,专门用于评估模型在未见过的数据上的表现。这种方式给予用户更大的灵活性,可以选择特定的、代表性的数据作为验证集,从而更准确地反映模型在实际应用中的性能。但是需要更多时间和专业知识来维护这个独立的验证集,且如果选择不当,可能无法充分反映模型的泛化能力。

这里我选择默认的自动切分。

image.png

下面是比较有特色的一个功能——【混合训练】。通用混合训练支持用户将自身训练数据与采样的千问基础模型通用多领域、多行业、多场景数据混合,进行训练,从而提高训练效果,避免基础模型能力的遗失,注意,选择混合训练后,混合采样的数据将计入训练Token数据量中,一并计费,平台支持选择多个基础训练数据进行混合训练。总之,混合训练策略是一种精细化调整模型性能的方法,通过精心设计的数据比例,力求在保持模型广泛适用性的同时,增强其在特定方向上的能力

比如:中文-对话 1.1倍 >> 自主训练数据:基础模型中文对话数据以1:1.1的比例混合训练,表示在进行模型训练时,每1单位的自主训练数据将与1.1单位的基础模型中文数据混合,这样能够使训练后的模型在中文表现上更加优于基础模型。

image.png

最后一步是【超参配置】。可以设置的参数如下:

  • 循环次数:循环次数代表模型训练过程中模型学习数据集的次数,可理解为看几遍数据,一般建议的范围是1-3遍即可,可依据需求进行调整,推荐范围:[1,200]。

  • 学习率:学习率代表每次更新数据的增量参数权重,学习率数值越大参数变化越大,对模型影响越大。

  • 批次大小:批次大小代表模型训练过程中,模型更新模型参数的数据步长,可理解为模型每看多少数据即更新一次模型参数,一般建议的批次大小为16/32,表示模型每看16或32条数据即更新一次参数。

这里一般建议使用默认配置。

image.png

最后会出现一张总览表,选择开始训练即可。

image.png

模型评测

通过模型评测,来检验训练出来的模型是否能够给出自己所期望的结果。

完成模型部署后,如需测试模型的效果,可在模型评测中进行评测,模型评测需要首先构建评测的数据集,构建方法类似于训练集的构建,数据格式同样是问答Pair对,对于Prompt而言往往是需要验证的问题,对于Completion而言往往是评测参考的答案,最终通过对比模型结果与参考答案,同时综合考虑模型结果的正确性,对模型结果进行打分或排序,得到模型真实效果。

模型评测有三种模式,解释如下:

  • 单个评测:单个评测主要用来评测单一模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测模型结果,并且同时展示评测集中预置的评测结果作为参考,针对模型预测结果进行打分后,可判断模型效果。

  • 对比评测:对比评测主要用来评测多个模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测每个模型的结果,并且同时展示评测集中预置的评测结果作为参考,对比评测支持针对每个参与评测的模型进行打分,同时支持模型排序,通过评测结果可判断不同模型之间的效果差异。

  • 基线评测(新增):系统预置多种能力常用评测集及评测脚本,一键自动评测模型多种基本能力水平自动计算得分,建议用于微调训练后的特定模型的基本能力效果评测,建议用于微调后模型基本效果的评测,避免能力的下降和丢失。

image.png

一般训练或部署了单个模型的情况下,建议进行单个评测;如果训练或部署了多个模型,希望对比不同模型的效果,则可选择对比评测模式进行评测;对单个模型的综合能力进行测试时,采用基线评测。

这里解释一下单个评测基线评测的区别:

  • 单个评测:主要应用于评估一个模型在特定任务或数据集上的表现。这通常涉及到选取一个预定义的评测集,该集合包含了一系列的问题(Prompt)或任务实例,用于测试模型的理解、生成、分类等能力。

  • 基线评测:更为全面的评测方法,特别适合于微调(Fine-tuning)后的模型评估。当模型经过针对特定目标的微调训练后,需要确保其核心或基础能力没有退化。

具体评测方式也是比较容易,点击创建评测任务:

image.png

选择对应的评测方式:

image.png

点击管理评测集:

image.png

点击新增数据集:

image.png

点击选择评测集,导出模板填写之后再上传:

image.png

点击发布之后,再回到评测中去选择:

image.png

选择默认综合评测维度:

image.png

点击开始测评即可:

image.png
image.png

模型部署

模型部署支持用户部署训练完成的模型或系统预置的模型,模型需要部署成功后方可正式提供模型服务,用于模型调用或评测,模型部署支持使用预付费资源和后付费资源两种方式,模型部署成功后将持续计费,支持随时扩缩容或上下线,下线后此模型将不再计费。

image.png

点击【下一步】选择对应的资源配置:

  • 包月资源:选择已购买的包月预付费资源组,不同的模型所需要的资源不同,选择模型后,系统将自动筛选需要的资源类型,预付费资源按月售卖,性价比更高

  • 按量付费:选择后付费的模式,即刻完成部署,系统将在部署成功后开始计费,付费模式更加动态,无到期时间,随时上下线。

如果偶尔用,推荐按量付费。

image.png

点击【开始部署】等待状态更新为部署成功。

image.png

系统将弹窗告知部署所需的费用,点击确认后,系统将开始部署,部署成功后开始收费。

image.png

小结

纵观整个模型中心-灵积下,都是关注对模型本身微调和定制的功能,相较于友商,这是百炼平台最大的优点之一。在微调之后的模型基础下进行应用开发,不仅能够更精准地贴合业务场景的特定需求,还能在一定程度上提升模型的泛化能力,确保在面对新数据时表现稳定。这种高度定制化的服务模式,是让百炼平台能够在众多AI解决方案提供商中脱颖而出,为不同行业、不同规模的客户提供了极具竞争力的优势。

应用中心

其下包含三个子模块,为应用广场我的应用应用组件

image.png

应用广场

这里是官方预置完整工程链路的应用或预置场景prompt的应用,通过应用将通义系列大模型接入到业务解决方案中,可以理解成类似于ChatGPT的应用商店,但是不同的是,这里不支持直接使用,因为百炼是一个开发平台,所以这里提供的快捷开发应用的模板

image.png

比如我此时想创建一个旅行规划专家,直接点击此处的【基于此模板创建应用】即可:

image.png

由于模板已经有过调优,所以也不必额外再修改,有需要的话也可以根据自己的需求进行一些修改:

image.png

我的应用

此处可以看到我创建的所有应用。创建应用后,通过对应的PaaS接口即可调用大模型能力,可在应用管理中管理创建的各类模型调用应用。

image.png

点击发布后,可以采用接口直接调用该服务:

image.png
image.png

应用组件

应用组件下包括:Prompt工程插件管理流程管理应用评测

Prompt工程

Prompt工程通过设计和改进prompt使大模型能够更准确、可靠地执行特定任务,平台为您提供了Prompt模板、Prompt优化等一系列Prompt工程工具。

Prompt模板包括 系统模板 和 自定义模板 两种类型,其中 系统模板 为阿里云百炼官方提供,包括文案风格改写、商品推广文案生成 等模板;自定义模板为您自定义创建的模板。

image.png

可以单击系统模板上的查看详情按钮查看该模板的模板内容、变量、ID等信息.

image.png

单击调用按钮弹出模板调用的代码示例,可以根据示例将Prompt模板直接集成到系统中,详情可见调用文档。

image.png

同样,我们也可以选择自定义模板。点击【新增模板】按钮,输入模板名称和模板内容。其中模板内容支持通过 ${ } 符号引入变量,系统会自动识别模板内容中的变量并显示在模板包含变量中。单击 保存 按钮即可完成模板创建。

image.png

点击创建之后我们可以看到自己创建的模板如下:

image.png

我们亦可以直接在线进行调试,点击Prompt接口调用文档

image.png

点击调试:

image.png

分别输入关键参数:

  • AgentKey: 业务空间key。

  • PromptId: 对应的PromptId。

  • Vars: 需要传入给Prompt的参数。

image.png

这里显示的调用成功了,返回为200:

image.png

但是有的朋友会问如果Prompt效果不佳怎么办?这不用担心,百炼也提供了Prompt优化能力。

image.png

比如我把我的一周菜谱助手丢进去,它会协助优化如下,其实整体大差不差,如果碰到比较复杂的prompt模板,则建议在此进行反复优化后调用

image.png

插件管理

插件是应用的一个重要功能,能够增强大语言模型的生成能力,更好地在业务场景下落地。目前提供两类插件:官方插件和自定义插件

image.png

目前,官方插件仅有四个,并且其中两个还要申请才可以使用,还是有些少了:

image.png

所以,更多的希望还是放在自定义插件上,我们点击新建自定义插件按钮,进入插件创建页面。

image.png

在自定义插件中,编辑插件信息,包括:

  • 插件名称:自定义插件的名称。

  • 插件ID:建议您输入具有语义的英文名称,例如:search、weather等。在您点击“创建完成”后,系统将为您生成全局唯一的插件ID。

  • 插件描述:请使用自然语言描述插件的功能,尽量给出使用示例。例如:“此插件用于获取指定时间和指定地点的天气和温度。例如杭州明天是否下雨”。 API时,请使用系统最终生成的ID。

  • 是否鉴权:当阿里云百炼调用您的自定义插件时是否进行鉴权,系统支持无鉴权、服务级鉴权和用户级鉴权三种方式。

image.png

流程管理

这里就是目前大名鼎鼎的workflow工作流了,通过流程画布的节点自定义业务流程,对接智能体应用,实现智能体对业务流程的调度,满足复杂及指定业务场景需求。

  • 创建编排流程:新建流程,根据业务需求通过编排设计画布节点的执行逻辑,系统支持大模型节点、脚本节点等多种节点类型。

  • 测试发布流程:完成流程创建后,可测试流程联通性,调整节点关系或优化脚本代码,完成测试后可发布流程。

  • 应用流程:创建智能体应用,在智能体应用中选择流程,智能体将自动调度及执行流程。

比如说我这里创建一个每日星座运势助手

image.png

进入后如图所示,就是非常友好的低代码界面:

image.png

对于星座运势的实现,我们可以选择第三方平台接API,也可以直接给大模型让其在流程内实现。

第一步自然是选择开始结点,对于API来说,调用需要上游参数:

image.png

而后选择API节点,填入URL、参数头、输入参数等信息,测试调用即可:

image.png

而采用大模型的方式则是选择大模型节点:

image.png

在大模型处引入上游的出参作为大模型节点的入参:

image.png

最终调试后结果如图所示:

image.png

反正星座这玩意是纯娱乐,依靠第三方接口和大模型结果都是差不多的,如果涉及到生活方面比如美团查评分携程查车票等等,这些还是使用官方提供的接口来制作比较好。

应用评测

应用评测基于应用维度评估模型或应用的真实使用效果,通过批量评测、拉取模型或应用的线上日志数据,端到端评估应用效果,支持使用评测集完成批量评测,或采样应用线上日志数据进行评测,可根据业务需要进行选择。

一般是需要先准备评测集:

image.png

也是下载模板后再上传上去:

image.png

在评测集创建完之后,开始创建评测任务:

image.png

这里分为应用批量评测模型日志评测

  • 应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证

  • 模型日志评测:适用于上线后拉取真实用户数据验证或回测业务线上效果

image.png

选择应用批量评测,然后上传准备好的评测集:

image.png

选择评测维度,未配置的话以默认为准,评测维度详情可以查看维度管理。

image.png

开始评测。 任务名称可以自定义修改。可以查看评测任务的完整信息。以及预估费用展示。确认后点击开始评测。

评测需要一段时间,评测完成后可以查看结果:

image.png
image.png

而模型日志评测则是适用于上线后拉取真实用户数据验证或回测业务线上效果,对这一段时间内的模型日志进行分析,以此判断其回答的准确性和真实性。

image.png

选择采样方式。并输入采样总量,因为我没有用过这个,所以用量为0。

  • 顺序采样:按照对话日志对话顺序依次采样,从第一条开始,采样至总量中的最后一条。

  • 随机采样:随机进行采样,采样至总量停止。

  • 预计总量:通过选择采样时间段来采样数据,默认采样一周以内数据,选择时间段后,系统将自动该时间段内预估的数据量。

  • 采样总量:总数不能大于预估总量且不能小于1。

image.png

点击下一步,开始评测。

image.png

测评后同样也是可以在任务列表中看到,并且可以查看评测后的报告及日志结果。

小结

对于应用的开发和管理,功能也是很丰富的,且不同于其他友商的是,百炼大模型平台是完完全全的把开发应用使用分开了。百炼就只是单纯的进行模型的开发、训练与优化,而将应用的开发与管理留给用户自由发挥,这样更能够打造一个高度解耦、灵活多变的生态系统。

除此之外,百炼大模型平台在应用开发工具的丰富度上确实也是略胜一筹,比较核心的两个:Prompt工程应用评测,是我个人比较满意的,并且也是对最终模型效果的呈现起着关键作用的。

数据中心

数据中心主要包括数据管理数据处理知识索引模型数据四个部分。

image.png

数据管理

这里是百炼平台统一的数据管理模块,支持多源、多格式的结构化及非结构化数据管理,支持多类目管理及自动化在线解析,应用于RAG、训练等模块。

image.png

左侧可以自定义目录,右侧可以直接导入数据:

image.png

image.png

数据处理

数据处理可支持用户使用不同的模型算子,针对数据进行预处理,如数据去重、长度过滤、信息过滤、内容过滤等处理方式,清洗为满足需求的数据。

分为数据清洗数据增强

点击数据清洗:

image.png

选择【数据来源】和【预制算子】:

image.png

点击确认,即可在任务上看到:

image.png

同理,点击数据增强,创建增强任务:

image.png

image.png

知识索引

创建和管理用于RAG应用的知识库索引,基于对数据中心的统一引用。

image.png

在创建时,有以下几点需要注意:

  • 知识库名称:必填项。

  • 数据类型:目前暂时只支持,非结构化数据。

  • 配置模式:分为推荐配置自定义。大部分情况下选择推荐配置即可。

  • 相似度阈值:设定最低分数标准,只有超过这个阈值的检索结果才会被考虑用于后续的生成过程。既不能过大也不能过小,所以可能需要根据结果反复尝试。

  • 向量存储类型:默认为内置,也可以授权ADB-PG实例。

image.png

点击下一步,选择类目中的数据,及数据处理方式:

  • 智能切分:在通用文档上的最优chunk切分方法,经过评测可在多数文档上获得最佳的检索效果

  • 自定义切分:完全开放的chunk切分配置,按照实际文档情况自由配置,通过调试获得更好的检索效果

普通知识库文档这里建议直接使用智能切分就好了。

image.png

最后选择导入完成,即可完成知识检索的创建。

模型数据

模型数据支持创建不同数据类型的数据集,包括训练集、评测集,支持多版本数据管理,发布后可前往模型调优/评测功能使用。

这一块前面也提到过,在此不过多赘述了,前面的创建数据集和评测集都是跳转至此处完成的。

image.png

小结

这一块的功能也算是中规中矩吧,是大模型开发平台的一个基本功能,但是对比起来仍有一些优势特别是数据处理这个模块,能够支持用户对数据进行预处理,而不是仅仅单一的让用户导入个知识库就完了,这个功能是很不错的!

系统管理

最后一个是系统管理,也就是所谓的总览界面。

里面包含调用统计、评测维度、用户管理、角色管理

image.png

调用统计

查看专属模型的用量统计,以获得模型的使用情况。

image.png

评测维度

依据评测需求增加维度模板,支持自定义多级维度、多级分数,预置多种维度模板,可应用于主流评测任务。

image.png

用户管理

支持引入阿里云RAM子账号,实现多用户同时操作。

image.png

角色管理

为阿里云子账号进行角色管理,以实现功能权限隔离。

image.png

小结

系统管理模块汇总了核心管理功能,包括调用统计以监控模型使用状况,评测维度以灵活自定义评估标准,以及用户和角色管理来确保多用户环境下操作的安全与权限控制,为平台提供了一个强大而全面的管控中心。

体验及建议

这篇文章是边写边好好的把百炼平台的能力全部体验了一遍,自然也是包括了本次评测活动要求的几点内容的,这里我汇总到一起再谈一下感受。

首先从功能上来说,百炼平台确实是比较全面了,综合上述谈到的四大模块,涵盖了从底层模型定制及调优应用流设计再到应用调用与管理的全链条服务。平台不仅提供了强大的模型训练与优化工具,如灵活的微调策略、智能与自定义的切分方式,还内置了丰富的评测维度和调用统计功能,让开发者能够全方位、多层次地理解和优化模型性能。这一点在实际操作中是尤为重要的。

而百炼具有优势的几个功能,我认为是以下几个,这里也是分别对应上文每个小结的内容:

  • 模型中心-灵积,都是关注对模型本身微调和定制的功能,这是百炼平台最大的优点之一。在微调之后的模型基础下进行应用开发,不仅能够更精准地贴合业务场景的特定需求,还能在一定程度上提升模型的泛化能力,确保在面对新数据时表现稳定。这种高度定制化的服务模式,是让百炼平台能够在众多AI解决方案提供商中脱颖而出,为不同行业、不同规模的客户提供了极具竞争力的优势。

  • 应用的开发和管理下,比较核心的两个:Prompt工程应用评测,是我个人比较满意的,并且也是对最终模型效果的呈现起着关键作用的。

  • 数据中心下,数据处理这个模块,能够支持用户对数据进行预处理,而不是仅仅单一的让用户导入个知识库就完了,这个功能是很不错的!

就这几天的体验来看,整体还是不错的,文档教程确实也够清晰,但是有时候也会碰到一些莫名的问题。

比如我在自定义流程时,不明白这里为啥一直有个默认的query参数,就觉得很奇怪:

image.png

一开始我也不知道这个参数填啥,就填的数字,结果一直报错:

image.png

关键是报错信息也不提示,我也不知道为啥,后来找了半天才在最佳实践里面看到这里要填“问答

image.png

最后还是按照这个调整好了:

image.png

所以这里也希望在流程管理里面也能像prompt工程那样预制一些系统模板,比如说把最佳实践的案例预设进行,也能方便用户快速学习和上手,至少给1~2个让用户能体验体验,这样才会更加直观地感受到平台的强大与便捷。

还有一个建议是关于社区生态方面的,不知道是不是我的错觉,其实阿里自去年推出百炼后现在一直处于一个不温不火的状态,用的人少了,也导致社区内容少;内容少了新手不容易上手,就会导致新用户流失,这形成了一个恶性循环。

个人建议可以适当考虑每月举行一次开发比赛或者一些圆桌论坛、线上会议等活动,形成以百炼开发平台为核心的百炼社区生态系统

展望

展望未来,随着“百炼”大模型开发平台的不断成熟与推广,其在促进大模型技术民主化、加速AI应用创新方面的作用将愈发显著。

而经历了“百模大战”的激烈竞争后,阿里云“百炼”也以其独特的定位和全面的服务体系,正逐步构建起一个包容性更强、创新活力更旺盛的AI生态系统,下面,我想引用《云栖战略参考》的一句话来结尾:

大模型应用的表象炫人眼目,但内里却早已发生了巨变,通过千锤“百炼”,得其筋骨,大模型应用才能一步步丰满起来。。。。。这场属于所有人的技术革命,也是对“百炼”平台愿景的最好诠释——让大模型技术的每一次“锤炼”,都能为世界带来实实在在的改变与福祉。

相关文章
|
1天前
|
数据采集 监控 算法
阿里云百炼模型训练评测
阿里云百炼提供一站式的模型开发服务,包括大模型训练、调用与部署。用户可查看剩余调用次数,点击开通服务以使用模型。计费基于调用量,涵盖推理、训练和部署。开通服务需同意协议,成功后将收到短信通知。评测显示,平台功能丰富,易用性强,能显著提升模型效果,且模型部署简便。建议优化数据预处理工具并增加实例教程。
|
3天前
|
人工智能 运维 自然语言处理
阿里云百炼
阿里云百炼支持多语言模型,适用于不同问答场景。初始内置问答基础上,用户可上传文档定制应用,针对每个项目“投喂”特定知识,优化答案检索,降低运维成本。模型管理允许关联不同知识库和设置敏感词以保护隐私。计费依据模型类型,大语言模型按Input和Output Token数,语音识别按时长计费。输入和输出分别计费,考虑资源消耗差异。
14 2
|
3天前
阿里云百炼大模型平台-自定义插件接口协议报错排查方案
阿里云百炼大模型平台-自定义插件接口协议报错排查方案
|
4天前
|
运维 机器人 开发者
使用阿里云百炼通过appflow模板,组合钉钉机器人搭建个人知识库评测与感想
尝试构建个人助手机制,用阿里云百炼+AppFlow+钉钉机器人,花费两午休时间解决配置问题。百炼appid复制时多出空格致错,文档未提及,耗时排查。应用创建时模型选项限于max, plus, turbo,性价比高的qwen-long未上线。期望尽快修复bug和上线新模型以降低成本。附故障排查截图。
33 1
|
6天前
|
人工智能 安全 Go
使用阿里云服务网格 ASM LLMProxy 插件保障大模型用户数据安全
本文介绍如何使用ASM LLMProxy动态为LLM请求添加API_KEY、使用模式匹配以及私有大模型判别请求敏感信息并根据判别结果拒绝请求等功能,帮助用户提升LLM场景下的安全水位。
|
7天前
|
人工智能 自然语言处理 数据可视化
体验评测报告:阿里云百炼平台——大模型应用构建的全方位工具箱
体验评测报告:阿里云百炼平台——大模型应用构建的全方位工具箱
81 2
|
3天前
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存型详细介绍和性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)三种,主要区别在于CPU和内存比例。计算型CPU内存比1:2,如2核4G;通用型为1:4,如2核8G;内存型为1:8,如2核16G。随着技术迭代,有第五代至第八代产品,如c7、g5、r8a等。每代实例在CPU型号和主频上相同,但性能有所提升。实例性能参数包括网络带宽、收发包能力、连接数等。具体应用场景如计算型适合高网络包收发、通用型适合企业级应用,内存型适合内存数据库等。详细信息可参阅阿里云ECS页面。
|
3天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器租用费用_GPU服务器详解_A10、V100、T4、P4、P100
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等多种GPU卡,适合深度学习、科学计算等场景。实例性能强劲,单实例可达5PFLOPS混合精度计算,VPC网络支持2400万PPS和160Gbps内网带宽。GPU实例包括A10卡GN7i(3213.99元/月起)、V100-16G卡GN6v(3830.00元/月起)等,价格因配置而异。阿里云还提供GPU加速软件如AIACC-Training和AIACC-Inference,以及弹性计算实例EAIS。客户案例包括深势科技、流利说和小牛翻译等。
|
3天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。
|
3天前
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。

热门文章

最新文章