一文揭秘|如何速成RAG+Agent框架大模型应用搭建(一)https://developer.aliyun.com/article/1655112
四、搭建示例
我们以产品架构师角度,搭建一个支持语音输入输出,并且具有开通资源和回答技术文档能力的AI助手。通过对于功能的分析,并且对应到以上的原子能力,我们的大模型应用首先要解决两个事情:问答功能和开通资源的功能。
如何通过RAG实现面向架构师的技术问答助手呢?
步骤描述
此步骤较为简单,不做概述,大家可以看百炼的最佳实践,一般分为四个步骤:
1)知识库导入、解析和切分
2)prompt的书写,调优
3)知识库的挂载、插件挂载
4)根据测试问题开始进行调试
如何减少大模型幻觉
要注意,幻觉是不可避免的,有时候prompt的语料“打”不过模型本身的泛化能力,模型会自信的根据自己的能力自说自话。比如提出这样的一个问题“paimon是什么?”,由于paimon本身是一个比较新的湖格式,并且即使制定了大模型搜索大数据相关的知识,大模型有时候也没有链接到湖格式的逻辑思维,所以会出现以下的情况:
那么如何让回答变成我们所预想的专业的回复呢?在我的尝试中,比较简单的步骤分别为:1)尝试更大的模型;2)prompt调优;3)对应的文档挂载;
1)尝试更大的模型:
一般来说,如果发现一个模型在某项任务上失败了,并且有一个更强大的模型可用,那么值得尝试使用更强大的模型再次尝试。在这里由于我已经使用了max模型,所以在此处可以忽略。
2)prompt调优:
a)角色定义清晰:prompt中需要清晰的让大模型知道自己的定位和精通并专注的内容,比如在角色定义中写明:
# 角色 你作为阿里云高级解决方案架构师的智能助手,精通大数据、数据库、分布式计算等核心云计算领域,掌握apache、oracle等大型云计算IT公司的全部技术栈,以严谨专注的态度,辅以亲切的交流方式,结合知识库${documents}和夸克搜索等插件,提供给云计算架构师对于云计算和云产品的专业指导。
b)提供示例:对于一些复杂的问题,可以给大模型提供示例,并且让他有一定的思考时间。比如:“请在回答AC大小问题时,通过分析A大于B,B大于C的情况,得出最终结论。”
c)限制描述:在限制中明确回答问题的领域、回答的长短、回答中禁止出现的词汇、回答中的来源等信息,会非常快速的帮助大模型进行回答的调优,诸如以下示例:
i)但是请注意,这种限制性的描述对于特定的问题可能会产生非常精准的效果,但是有可能会影响到整个大模型应用的泛化性,所以还要多多尝试和调整,达成最终应用层面的precision-generalization tradeoff。
## 限制与风格- 回答需严格限制在于云计算、数据库、大数据及分布式计算等计算机技术领域。 - 回答不要涉及任何游戏、娱乐等领域的词汇和课题, - 当回答出现不清楚字样的时候,一定要使用夸克搜索插件,返回最相关的回复。 - 交流风格亲切友好,即使面对复杂技术问题也能以易于理解的方式解答。 - 确保所有检索内容均来源于可靠渠道,优先考虑阿里云等云厂商的官方资源,维护回答的准确性和时效性。
3)对应的文档挂载:
文档挂载这类外部信息辅助的问答,是最快最有效解决大模型对于一类特定领域或者名词进行“胡说八道“的问题,当我们将Paimon的产品文档链接以外部知识库的形式挂载时,大模型回答问题显而易见的精准了很多:
如何自己写一个开通ECS的Agent呢?
在实现Agent搭建的时候,function call是一个非常简单而且有用的方式,通过自定义的function,让大模型根据输入的query来匹配是否需要调用函数和调用哪个函数。当然,我们也可以让大模型自动生成开通ecs的代码,并且调用code_interpreter(代码解释器插件)来进行运行,甚至可以指定它来进行自主的调优,但是这就是一个具有多个step的复杂问题,其中有诸多挑战,比如:需要明确的规划好这些步骤的操作内容、操作顺序、环境配置才能让模型更容易遵循;中间结果也不一定可以人为的进行控制;并且AK、SK和ECS的各种参数匹配与输入又是另一个工程性问题,所以在此篇文章中我们不予考虑。下面将介绍如何使用function call构建一个非常简单的开通资源的Agent,分为五个步骤:
步骤描述
- step1: 写好应用的description和instruction,目的是让大模型知道自己的定位和功能。并且由于要调用插件调用插件,需要制定当实现某些功能时,调用何种插件,比如:“请给我开通一台北京的ecs”这句话,属于“开通ecs”这个函数:
description='一个阿里云架构师AI助手,可以通过用户诉求,通过调用插件帮助用户创建ecs、vpc等云资源。', instructions='一个阿里云架构师AI助手,可以通过调用插件解决开通资源等问题。插件例如,开通ecs,开通vpc,判断地域等等,当你无法回答问题时应当结合插件回复进行回答。请根据插件结果适当丰富回复内容。' '当有需求开一台ecs的时候,请一定要调用开通ecs这个插件' '当有需求开一个vpc的时候,请一定调用开通vpc插件',
- step2: 定义tools中的function,我们以定义开通ecs的function来举例,此function作用是用来开通ecs,所以在description中必须写明该插件是用户开通ecs的插件:
请注意:最好写Default,比如若用户输入的query中不包含地域信息,那么请给出默认一个地域,防止参数为空导致的一系列报错问题,例如:“如果输入中没有地域,则默认region=cn-beijing”
{ 'type': 'function', 'function': { 'name': '开通ecs', 'description': '用于开一台ecs的插件和函数,例如:请给我开一台北京的ecs,则region=cn-beijing;请给我开一台上海的ecs,则region=cn-shanghai。如果输入中没有地域,则默认region=cn-beijing', 'parameters': { -------- }, 'required': [''] } } },
- Step3:定义function的参数,比如开通ecs之前,需要得知用户想要开通ecs的地域信息,并且把地域信息转换成代码能够识别的参数,例如:首先从“给我开一台北京的ecs”中解析出 “北京” 这个地域信息,然后根据description中的描述,大模型将“北京”转换为cn-beijing,最后的region_ecs为‘cn-beijing’。
请注意:
1、required 这个部分如果含有参数,那么region_ecs就不能为空,或者是region_ecs的参数必须符合自定义的参数类型。如果required=[''],则region_ecs为空也没事,只要后面的函数可以接受region_ecs为空;
2、参数名称(region_ecs)必须和后面调用函数的参数名一模一样。
'parameters': { 'type': 'object', 'properties': { 'region_ecs': { 'type': 'string', 'description': 'ecs开通的地域,并且需要转化为‘cn’加上地域拼音的形式,比如北京对应cn-beijing,杭州对应cn-hangzhou' }, }, 'required': ['region_ecs']
- Step4: 将定义的function与大模型实际调用的函数匹配,function_mapper很好理解:
function_mapper = { "开通vpc": create_vpc_function, "判断地域": judge_region_exist, "开通ecs": create_instance_action, }
- Step5: 调用create_instance_action函数,把region_ecs传进去,并且调通整条链路,示例如下,本部分可以参考ecs文档的开发sdk内容进行改写:
请注意:需要有返回值,返回值类型为string,最好返回的内容可以被大模型理解,这样大模型可以根据返回的信息进行润色。比如该例子中,返回:“success”这句话,大模型回复“已成功为您开通一台位于北京的ecs”。
def create_instance_action(region_ecs): print("function调用测试成功,region-id为:",region_ecs) IMAGE_ID, INSTANCE_TYPE, SECURITY_GROUP_ID, VSWITCH_ID = get_config(region_ecs) instance_id = create_after_pay_instance(IMAGE_ID, INSTANCE_TYPE, SECURITY_GROUP_ID, VSWITCH_ID,region_ecs) check_instance_running(instance_id,region_ecs) return "success"
后续思考问题
- 如何支持开多台ecs?新参数amount写入。
- 如何支持多个region的ecs?工程问题,笨方法,对region_ecs做一个if else。
- 如何操作一些更为复杂的函数,比如在已知查询价格接口的基础上,如何实现实时查询一Cascade CPU架构的n核nG ECS包年包月/按量付费的价格?
应用集成
在了解原子能力和一些功能搭建之后,面对一个复杂一些的场景,通常不仅仅是选取单个模型,或者仅仅完成部分功能,那么就需要根据业务情况以大小模型、RAG+Agent的方式构建一个多智能体应用。这里介绍两种集成方式:意图识别链接多个模型的方式和Aassistant API集成function和RAG。
1.意图识别
意图识别的本质是实现大小模型的结合,通过意图识别后的tag,分别调用不同的模型、APP和assistant,可以控制不同部分的模型的大小和实现的功能,让每条链路都更加精准化。比如我们可以将问题的分类分为以下几个部分,分别使用不同大小的模型,挂载不同的知识库来覆盖所有的功能:
拓展来说,我们甚至可以将意图树做的更深,如果场景足够的复杂,那么意图识别也可以是多层的,像一个树一样,每个分支都定义更加精细化的意图知识库。
2.Assistant-API集成
目前,基于dashscope搭建的assistant已经可以将rag和function call等插件集成到一个模型中:
- 首先,最重要的步骤是在toos中定义一个名字叫做“rag”的“type”,并且将百炼平台的知识库id写入到YOUR_PIPELINE_ID中。
- 其次,类似我们实现function call的功能,我们需要在description中指明,回答何种问题需要使用名叫“rag”的插件。这样在匹配到类似的问题的时候,assistant可以调用“rag”插件,在文档${document1}中做搜索倒排之后,返回TopN信息,然后输入大模型进行整合:
tools=[ { "type": "fucntion"{ } }, { "type": "rag", "prompt_ra": { "pipeline_id": "YOUR_PIPELINE_ID", "parameters": { "type": "object", "properties": { "query_word": { "type": "str", "value": "${document1}" } } } } }]
最终使用多个原子能力构建整个完整的端到端链路。
五、后记
目前大模型的原子能力和API、SDK的更新非常的频繁,也越来越完善,通过一次或者两次的动手搭建,可以让我们知道如何利用这些能力,像“积木”一样,结合自己本身业务或者功能的逻辑,搭建一个完整的大模型“城堡”。