使用PAI搭建以Hologres为向量库的RAG对话系统-开发者社区-阿里云

基于QwQ-32B+Hologres+PAI搭建 RAG 检索增强对话系统

2025-03-10 936

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍如何使用PAI-EAS部署基于QwQ大模型的RAG服务，并关联Hologres引擎实例。Hologres与达摩院自研高性能向量计算软件库Proxima深度整合，支持高性能、低延时、简单易用的向量计算能力。通过PAI-EAS，用户可以一键部署集成大语言模型（LLM）和检索增强生成（RAG）技术的对话系统服务，显著缩短部署时间并提升问答质量。具体步骤包括准备Hologres向量检索库、部署RAG服务、通过WebUI页面进行模型推理验证及API调用验证。Hologres支持高性能向量计算，适用于复杂任务的动态决策，帮助克服大模型在领域知识局限、信息更新滞后和误导性输出等方面的挑战。

Hologres 与达摩院自研高性能向量计算软件库 Proxima 深度整合，支持高性能、低延时、简单易用的向量计算能力。本文将介绍如何使用 PAI-EAS 部署基于 QwQ 大模型的 RAG 服务，并关联 Hologres 引擎实例，以及对 RAG 对话系统的基础功能和 Hologres 高性能向量的功能进行说明。

背景信息

本文搭建的 RAG 检索增强对话系统需要如下组件或服务：

Hologres

Hologres 是阿里巴巴自研一站式实时湖仓产品，不仅支持海量数据多维分析（OLAP）、高并发低延迟的在线数据服务（Serving），还与达摩院自研高性能向量计算软件库 Proxima 深度整合，支持高性能、低延时、简单易用的向量计算能力。详情请参见Proxima向量计算。

PAI-EAS

阿里云人工智能平台PAI（Platform For AI）的模型在线服务EAS（Elastic Algorithm Service）提供了场景化部署方式，通过简单配置几个参数，用户即可一键部署集成了大语言模型（LLM）和检索增强生成（RAG）技术的对话系统服务，显著缩短服务部署时间。在使用该服务进行推理验证时，它能够有效地从知识库中检索相关信息，并与大语言模型的回答相结合，从而产生准确且信息丰富的答案，显著提升问答的质量和整体性能。该服务适用于问答、摘要生成及依赖外部知识的自然语言处理任务。

QwQ-32B

QwQ-32B 是阿里巴巴开源的新型推理模型，通过大规模强化学习（RL）训练大幅度提升了模型推理能力，支持数学推理、编程任务和智能体能力，适用于复杂任务的动态决策。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到 DeepSeek-R1 满血版水平。

RAG 简介

随着AI技术的飞速发展，生成式人工智能在文本生成、图像生成等领域展现出了令人瞩目的成就。然而，在广泛应用大语言模型（LLM）的过程中，一些固有局限性逐渐显现：

领域知识局限：大语言模型通常基于大规模通用数据集训练而成，难以针对专业垂直领域提供深入和针对性处理。
信息更新滞后：由于模型训练所依赖的数据集具有静态特性，大模型无法实时获取和学习最新的信息与知识进展。
模型误导性输出：受制于数据偏差、模型内在缺陷等因素，大语言模型可能会出现看似合理实则错误的输出，即所谓的“大模型幻觉”。

为克服这些挑战，并进一步强化大模型的功能性和准确性，检索增强生成技术RAG（Retrieval-Augmented Generation）应运而生。这一技术通过整合外部知识库，能够显著减少大模型虚构的问题，并提升其获取及应用最新知识的能力，从而实现更个性化和精准化的LLM定制。

前提条件

已创建专有网络VPC、交换机和安全组。具体操作，请参见搭建IPv4专有网络和创建安全组。并将 Hologres 实例和 RAG 服务时配置于同一 VPC 内。

部署步骤

步骤一：准备 Hologres 向量检索库

创建 Hologres 实例。
为 Hologres 实例创建数据库和账号，详情请参考创建数据库。

创建账号后，需要给相应的账号完成数据库授权，请参考 Hologres权限模型，并连接HoloWeb检查相应权限。
推荐使用简单权限模型对相应的账号授予 developer（开发者）以上权限。

配置数据库连接。

访问 Hologres 控制台，选择实例列表中的对应实例，在实例详情页面可以看到网络信息，网络信息中的指定 VPC 地址即为 Hologres Endpoint。

步骤二：部署基于 DeepSeek 的 RAG 服务

进入 PAI-EAS 页面

登陆 PAI 控制台，在左侧导航栏单击工作空间列表，在工作空间列表页面中单击待操作的工作空间名称，进入对应工作空间内。如您尚未创建工作空间，请创建工作空间。

在工作空间页面的左侧导航栏选择模型部署>模型在线服务（EAS），进入模型在线服务（EAS）页面。

在部署大模型RAG对话系统页面，配置参数后单击部署。当服务状态变为运行中时，表示服务部署成功。关键参数说明如下。

参数		描述
基本信息	版本选择	支持部署以下两种版本： LLM一体化部署：将大语言模型（LLM）服务和RAG服务部署在同一服务内。 LLM分离部署：仅部署RAG服务。但在RAG服务内，您可以自由更换和连接LLM服务，灵活性更高。本文 Demo 选择 LLM一体化部署，您可以根据实际业务需求选择不同的部署版本。
基本信息	模型类别	本文选择 QwQ-32B 系列模型为例，您可以根据具体使用场景选择相应的开源模型。
资源配置	资源配置选择	系统会根据已选择的模型类别，自动推荐适合的资源规格。更换至其他资源规格，可能会导致模型服务启动失败。
向量检索库设置	版本类型	选择Hologres。
	调用信息	配置为指定VPC的host信息。进入Hologres管理控制台的实例详情页，在网络信息区域单击指定VPC后的复制，获取域名`:80`前的host信息。
	数据库名称	配置为Hologres实例的数据库名称。如何创建数据库，详情请参见创建数据库。
	账号	配置为已创建的自定义用户账号。具体操作，请参见创建自定义用户。
	密码	配置为已创建的自定义用户的密码。
	表名称	输入新的表名称或已存在的表名称。对于不存在的表名称，PAI-RAG 将自动创建相应的向量索引表。对于已存在的表名称，表结构应符合PAI-RAG要求，例如可以填写之前通过EAS部署RAG服务自动创建的Hologres表。
专有网络配置	VPC	确保所配置的专有网络与 Hologres 实例保持一致。
	交换机
	安全组名称

步骤三：通过 WebUI 页面进行模型推理验证

RAG服务部署成功后，在模型在线服务（EAS）页面，选择推理服务页签，单击目标服务对应服务方式列下的查看Web应用，启动WebUI页面。

您可以在WebUI页面，参考以下操作步骤对服务进行调试。

1. 向量检索库与大语言模型设置

在 Settings 页签，您可以修改Embedding相关参数以及使用的大语言模型。建议直接使用默认配置。配置好以后，点击 Update Indexing 即可保存。

Index 相关参数说明：

参数	描述
Index Name	系统支持对已有Index进行更新。您可以在下拉列表中选择New来新增Index，并通过指定索引名称实现不同知识库数据的隔离，详情请参见如何使用RAG服务进行知识库数据隔离？
EmbeddingType	支持huggingface和dashscope两种模型来源。 huggingface：系统提供内置的Embedding模型供您选择。 dashscope：使用百炼模型，默认使用text-embedding-v2模型，详情请参见Embedding。注：使用dashscope，您需要给EAS配置公网连接，并配置百炼的API Key。百炼模型调用需单独计费，请参见百炼计费项说明。
Embedding Dimension	输出向量维度。维度的设置对模型的性能有直接影响。在您选择Embedding模型后，系统将自动配置Embedding维度，无需手动操作。
Embedding Batch Size	批处理大小。

Large Language Model 相关参数：
若大模型RAG对话系统服务版本选择LLM一体化部署，即大语言模型（LLM）服务和RAG服务部署在同一服务内，默认不用填写。
若大模型RAG对话系统服务版本选择LLM分离式部署，按如下步骤获取服务地址和Token信息，完成填写。

进入模型在线服务（EAS）界面，在推理服务页签，单击目标服务名称。

在概览页的基本信息里，单击查看调用信息。
在调用信息对话框中，根据连接方式选择，获取对应的服务访问地址和Token信息。

2. 上传指定的业务数据文件

在 Upload 页签中，您可以根据您的业务数据文件，设置语义切块参数，并上传指定的业务数据文件，系统将自动完成 Embedding 并存储到 Hologres 向量检索库中。

设置语义切块参数。

通过配置以下参数来控制文档切块粒度的大小和进行QA信息提取：

参数	描述
Chunk Size	指定每个分块的大小，单位为字节，默认为500。
Chunk Overlap	表示相邻分块之间的重叠量，默认为10。
Process with MultiModal	使用多模态模型处理，可以处理pdf、word、md文件的图片。如果您选择了使用多模态LLM，请打开此开关。
Process PDF with OCR	使用OCR模式解析PDF文件。

上传业务数据文件，支持的文件类型为.txt、.pdf、Excel（.xlsx或.xls）、.csv、Word（.docx或.doc）、Markdown或.html，支持本地文件、本地目录或 OSS 上传。
成功上传文件后，系统会先对上传的文件进行数据清洗（文本提取、超链接替换等）和语义切块，然后进行存储到 Hologres 向量检索库中。

3. 配置模型推理参数

在 Chat 页签中，您可以配置向量检索和模型推理验证的相关参数。

通用参数

参数	说明
Streaming Output	选中Streaming Output后，系统将以流式方式输出结果。
Need Citation	回答中是否需要给出引用。
Inference with multi-modal LLM	使用多模态大语言模型时是否展示图片。

向量检索相关参数，目前支持三种向量检索方式
Embedding Only：向量数据库检索召回。
Keyword Only：关键词检索召回。
Hybrid：向量数据库和关键词检索多路召回融合。
LLM 相关参数
Temperature ：控制生成内容的随机性。温度值越低，输出结果也相对固定；而温度越高，输出结果则更具多样性和创造性。

4. 模型推理验证

在 Chat 页签选择使用的知识库索引（Index Name），配置问答策略，您可以选择多种方式对模型进行推理验证，调优对话系统。

Retrieval：直接从 Hologres 向量数据库中检索并返回Top K条相似结果。

LLM：直接使用LLM回答。

Chat（Knowledge Base）：将 Hologres 向量数据库检索返回的结果与用户问题合并填充至已选择的Prompt模板中，一并输入大语言模型服务进行处理，从中获取问答结果。

步骤四：通过 API 调用进行模型推理验证

当您在WebUI页面调试好问答效果后，可以基于PAI提供的API将其应用到您自己的业务系统中，操作步骤如下：

获取RAG服务的调用信息。
单击RAG服务名称，进入服务详情页面。
在基本信息区域，单击查看调用信息。
在调用信息对话框的公网地址调用页签，获取服务访问地址和Token。
API 调用请参考文档。

Hologres 特色功能支持

Hologres 向量计算功能强大，支持高性能、低延时、简单易用的向量计算能力。详情请参见Proxima向量计算。

在本文实例的 RAG 系统中，连接作为向量检索库的 Hologres 数据库后，可以查看已导入的知识库内容。

13个专题6万字详解，Hologres一体化实时湖仓实践手册发布

Hologres 3.0 全新升级为一体化实时湖仓平台，通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+Al 一体，实现一份数据、一份计算、一份服务，极大提高数据开发及应用效率。立即下载>>https://developer.aliyun.com/ebook/8436电子书亮点：

ꔷ 结合Deepseek+PAI 构建RAG检索增强系统

ꔷ 结合Flink、Paimon、MaxCompute等构建一体化实时湖仓平台

ꔷ Serverless系列功能快速入门，降价46%并保障资源隔离与稳定

ꔷ Dynamic Table、运维诊断优化、流量分析函数等3.0最新功能实践