一文揭秘|如何速成RAG+Agent框架大模型应用搭建(一)

简介: 一文揭秘|如何速成RAG+Agent框架大模型应用搭建


编者荐语:

一文教你用原子能力,实现快速搭建RAG+Agent大模型应用


以下文章来源于阿里云开发者 ,作者砚染



阿里妹导读


本文侧重于能力总结和实操搭建部分,从大模型应用的多个原子能力实现出发,到最终串联搭建一个RAG+Agent架构的大模型应用。


一、概况


目前有关大模型的定义与算法介绍的文章已经很多,本文侧重于能力总结和实操搭建部分,从大模型应用的多个原子能力实现出发,到最终串联搭建一个RAG+Agent架构的大模型应用,让个人对于大模型应用如何落地更加具有体感。



二、大模型发展现状



目前大模型发展笼统的可以分为两个部分,自然语言处理大模型(Qwen语言系列等)和多模态大模型,同时多模态大模型又分为多模态理解(Qwen-VL、Qwen-Audio等)和多模态生成(万相、EMO等)。


自然语言处理


在自然语言处理领域,短短的2个月内,大家已经看到了价格的急剧下降,这是得益诸如OpenAI的ChatGPT系列、Llama、通义、GLM等标志性大模型的发布和应用,也代表着这个技术在算法和模型层面上的进入了成熟的新阶段。这些自然语言处理大模型凭借其庞大的参数量和在海量数据上的训练,展现出了令人惊叹的语言理解和生成能力,除了原始的文本生成、机器翻译、情感分析和自动问答等基础功能,还衍生出了以检索增强生成和Agent搭建为背景的特定领域功能,比如客服质检、风控辅助、智能投研等。它们不仅大幅提高了交互的自然度和效率,还促进了诸如智能客服、内容创作、教育辅助工具等多种产品的创新与升级,实现了技术和业务需求的融合。


多模态


相比之下,多模态技术,尤其涉及视觉、听觉与文本等多种感官信息融合的多模态大模型,在Sora推出之后收到了广泛的关注,并且已经应用在一些客服、座舱、营销等领域。在GPT-4o发出后,端到端的多模态理解与生成模型也成为了每个公司所希望打造的模型之一。目前大多数对于多模态的应用还集中于原子能力的使用,比如图像描述生成、视频内容理解和生成等,与业务紧密结合的最佳实践还没有形成完整的体系,如何落地端到端的自然语言处理和多模态应用仍然在尝试和共创的过程中。

本文主要介绍自然语言处理模型如何在业务场景中进行落地,将模型价值转化为生产力价值。



三、原子能力概括



目前基于百炼平台、灵积平台和dashscope sdk等功能,非算法工程师和技术人员也可以学习并构建自己的大模型应用。总结多个产品和功能后,排除百炼本身单个功能(比如模型测试、模型微调等)外,目前的原子能力可以分为以下几个部分:

1、RAG


目前RAG的实现方式有两种:


  • 第一种通过百炼白屏化的方式,通过一下步骤快速搭建一个RAG应用:1、数据管理-导入数据;2、数据应用-知识索引-创建知识库;3、模型应用-新建应用-开通知识检索增强。

image.png 

然后可以通过调用应用API的方式将应用集成在工程项目中:

image.png 

此外,也支持llama-index集成百炼进行搭建,参考链接为:

https://help.aliyun.com/zh/model-studio/developer-reference/build-rag-applications-based-on-llamaindex


相对于白屏化操作来说,这种方式的优点是,通过每个步骤对应一个函数的拆分,可以控制每个步骤之间的输入输出,用户可以自定义的编写对于中间数据的数据操作,或者是做一些安全检测、安全防控类的任务。


  • 第二种为本地Llama-index:如果有一些敏感信息,希望无论是对于模型还是文件,都全部以本地的形式搭建本地RAG平台,那么可以尝试使用llama-index框架,从文件导入开始,从0到1搭建RAG流程,在这里不做赘述,可以参考下面类似的CSDN文章。https://blog.csdn.net/qq_23953717/article/details/136553084


  • 注意项:


  • 影响模型应用的好坏的重要标志是PE工程,大模型无法读取用户的思维。如果输出太长,请要求大模型简洁回复。如果输出太简单,请要求专家级的扩写。如果大模型输出不符合要求的格式,请给大模型演示自己希望看到的格式。模型需要猜测用户的意图越少,用户获得所需结果的可能性就越大。


  • prompt策略:在OpenAI的材料中,对于prompt的建议有以下几个部分 1)在查询中包含详细信息以获得更相关的答案;2)要求模型采用某种角色扮演;3)使用定界符清楚地指示输入的不同部分;4)指定完成任务所需的步骤;5)提供示例;6)指定输出的期望长度



2、Function call


Function call需要解决的问题就是将LLM的能力从单纯NLP类问答转化为一个个执行单元,将模型输出的语言对应到可以执行特定任务的函数或插件。


目前Function call功能在百炼产品文档中已经形成两个非常详细的最佳实践文档:



相对于code_interpreter,search这种已经封装好的插件,对于用户自定义的任务来说,我们实现自己的Function call能力,主要分成三个步骤:


1)步骤一:tools中function的定义,目的是为了定义每个插件的作用,需要传入的参数的定义;

{               
'type': 'function',              
'function': {                 
'name': '获取目的地建议',               
'description': '用于推荐最近热门的旅游目的地。',               
'parameters': {                     
'type': 'object',                      
'properties': {                         
'query': {                              
'type': 'str',                            
'description': '可能需要的信息'                      
},                   
},                       
'required': ['query']        
}             
}           
},


2)步骤二:function_mapper,定义每个function对应的调用函数名;


function_mapper = {  
"天气查询": get_weather,   
"路径规划": get_path_recommendation,  
"获取目的地建议": get_destination_recommendation,  
"获取景点推荐": get_attraction_recommendation,  
"获取餐饮推荐": get_dining_recommendation,   
"获取旅行提示": get_life_tips,   
"获取当地风俗": get_local_customs,
}

3)步骤三:实现函数,保持输入参数和输出的正确性。

3、ASR+TTS


ASR(语音转文字)和TTS(文字转语音)本身已经是成熟的功能,在与大模型的结合中衍生出了新的产品和范式,比如通义听悟产品,在ASR的基础上增加了角色识别、文本翻译、章节提取、摘要生成等等功能,甚至是后面会做到的语音特征提取、情绪识别等新功能。ASR中的比较先进模型为paraformer,TTS中的先进模型举例为sambert(声音克隆功能),目前提供的代码链接如下:


Paraformer实时语音转文字:

https://help.aliyun.com/zh/dashscope/developer-reference/quick-start-7


听悟离线转文字:https://help.aliyun.com/zh/tingwu/offline-transcribe-of-audio-and-video-files

实时部分目前有完整JavaSDK工程。


Sambert调用页面:https://dashscope.console.aliyun.com/model


请注意:


1、 paraformer 本身代码没有设置 stop 逻辑,所以需要设置一个时长,或者是通过 result.is_sentense_end() 来判断语句是否结束;


2、本身原子能力是成熟的,但是目前模型对于打断效果支持效果还不好,如果出现打断,输出text会断开并重新生成,准确度方面需要在上层进行工程优化。


4、意图识别


目前的多轮对话使用prompt来实现,在prompt中可以标注本应用是一个意图识别的AI应用,并且在定义中表明类别有几类,每一类的任务分别是什么。


如果类别比较少,可以像下面这么写:

# 角色
你是一个精准的意图识别系统,专门负责将接收到的指令归类为三大任务类型,并严格依据指令内容输出对应的任务标签数字(1, 2, 或 3)。
## 技能### 
技能1: ****问答任务
- **任务定义**:
c s- **输出标签**:遇到此类指令,输出数字 `1`。
- **示例**:
### 技能2: ****任务
- **任务定义**:
- **输出标签**:对此类指令,输出数字 `2`。
- **示例**:
### 技能3: ****执行任务
- **任务定义**:
- **输出标签**:面对这类指令,输出数字 `3`。
- **示例**:

则返回的结果为:

image.png




如果类别比较多,可以直接使用Key:Value的形式,形成一个意图文档,把文档当作prompt,每次输入为意图识别的要求+意图识别文档库,返回意图标签。


5、多轮对话能力


我们在白屏化页面上(比如百炼和通义官网)直接使用基模的原子能力时,是内置了多轮对话能力。但是在调用SDK时,因为代码默认一个用户创建一个线程(thread),而每一轮的用户输入query的时候,thread都会初始化一次然后存入当前的message。简而言之就是每次问答,大模型的消息队列中只包含新的message信息,而不包含过去的messages信息。


我们来看一下下面简单的多轮对话实现方式,可以看到多轮对话的理论就是将之前对话的role(usr、system)和message,append到长期维护的messages队列中,然后再把整个messages队列输入到大模型中:

 image.png 

因此在assistant实现多轮对话中,最简单的方法就是在创建线程并把信息输入给assistant之前,把每一轮的role和输出/输出保存成一个队列,然后再发送给assistant,以下代码供参考:

message_objs = []
for j in msgs['data']: #msgs为上一轮的output  
role = j['role']   
content = j['content'][0]['text']['value']  
message_objs.append({       
"role": role,      
"content": content         
})

最终出来的结果可以看到一下的截图,当我的第二个问题“我刚才让你干了什么?”输出的时候,队列中已经包含了之前第一轮input和output的信息:

image.png 

一文揭秘|如何速成RAG+Agent框架大模型应用搭建(二)https://developer.aliyun.com/article/1655113

相关文章
|
9天前
|
人工智能 自然语言处理 搜索推荐
携多项成果亮相云栖大会,探索大模型在云通信中的创新应用与全球实践
2025云栖大会云通信分论坛聚焦大模型与云通信融合,阿里云发布智能联络中心2.0与Chat App AI助理,携手伙伴推动通信智能化升级。
|
2月前
|
机器学习/深度学习 人工智能 机器人
黑箱与具身之间的因子框架( Prompt大模型的自我描述 系列五)
本文探讨大模型的“量子式黑箱”困境,指出其虽强大却缺乏可解释性。作者提出“因子框架”,以结构性推理替代概率坍缩,实现因果可控;并重新定义多模态,从“模态互通”走向“因子统一”。最终指向具身智能的真正起点:让AI在逻辑中融合感知,走出语言,迈向真实世界。
91 9
|
7天前
|
人工智能 自然语言处理 NoSQL
超越基础提示:用RAG为你的大模型注入“新鲜记忆”
超越基础提示:用RAG为你的大模型注入“新鲜记忆”
174 101
|
14天前
|
存储 人工智能 自然语言处理
RAG:增强大模型知识库的新范式
RAG:增强大模型知识库的新范式
329 99
|
17天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1411 87
|
18天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
580 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
6天前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
90 42
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
10天前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
137 12
|
7天前
|
人工智能 自然语言处理 搜索推荐
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
|
14天前
|
存储 人工智能 监控
如何用RAG增强的动态能力与大模型结合打造企业AI产品?
客户的问题往往涉及最新的政策变化、复杂的业务规则,数据量越来越多,而大模型对这些私有知识和上下文信息的理解总是差强人意。
49 2

热门文章

最新文章