基于QwQ-32B+Hologres+PAI搭建 RAG 检索增强对话系统

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍如何使用PAI-EAS部署基于QwQ大模型的RAG服务,并关联Hologres引擎实例。Hologres与达摩院自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时、简单易用的向量计算能力。通过PAI-EAS,用户可以一键部署集成大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务,显著缩短部署时间并提升问答质量。具体步骤包括准备Hologres向量检索库、部署RAG服务、通过WebUI页面进行模型推理验证及API调用验证。Hologres支持高性能向量计算,适用于复杂任务的动态决策,帮助克服大模型在领域知识局限、信息更新滞后和误导性输出等方面的挑战。

Hologres 与达摩院自研高性能向量计算软件库 Proxima 深度整合,支持高性能、低延时、简单易用的向量计算能力。本文将介绍如何使用 PAI-EAS 部署基于 QwQ 大模型的 RAG 服务,并关联 Hologres 引擎实例,以及对 RAG 对话系统的基础功能和 Hologres 高性能向量的功能进行说明。

背景信息

本文搭建的 RAG 检索增强对话系统需要如下组件或服务:

Hologres

Hologres 是阿里巴巴自研一站式实时湖仓产品,不仅支持海量数据多维分析(OLAP)、高并发低延迟的在线数据服务(Serving),还与达摩院自研高性能向量计算软件库 Proxima 深度整合,支持高性能、低延时、简单易用的向量计算能力。详情请参见Proxima向量计算

PAI-EAS

阿里云人工智能平台PAI(Platform For AI)的模型在线服务EAS(Elastic Algorithm Service)提供了场景化部署方式,通过简单配置几个参数,用户即可一键部署集成了大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务,显著缩短服务部署时间。在使用该服务进行推理验证时,它能够有效地从知识库中检索相关信息,并与大语言模型的回答相结合,从而产生准确且信息丰富的答案,显著提升问答的质量和整体性能。该服务适用于问答、摘要生成及依赖外部知识的自然语言处理任务。

QwQ-32B

QwQ-32B 是阿里巴巴开源的新型推理模型,通过大规模强化学习(RL)训练大幅度提升了模型推理能力,支持数学推理、编程任务和智能体能力,适用于复杂任务的动态决策。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到 DeepSeek-R1 满血版水平。

RAG 简介

随着AI技术的飞速发展,生成式人工智能在文本生成、图像生成等领域展现出了令人瞩目的成就。然而,在广泛应用大语言模型(LLM)的过程中,一些固有局限性逐渐显现:

  • 领域知识局限:大语言模型通常基于大规模通用数据集训练而成,难以针对专业垂直领域提供深入和针对性处理。
  • 信息更新滞后:由于模型训练所依赖的数据集具有静态特性,大模型无法实时获取和学习最新的信息与知识进展。
  • 模型误导性输出:受制于数据偏差、模型内在缺陷等因素,大语言模型可能会出现看似合理实则错误的输出,即所谓的“大模型幻觉”。

为克服这些挑战,并进一步强化大模型的功能性和准确性,检索增强生成技术RAG(Retrieval-Augmented Generation)应运而生。这一技术通过整合外部知识库,能够显著减少大模型虚构的问题,并提升其获取及应用最新知识的能力,从而实现更个性化和精准化的LLM定制。

前提条件

已创建专有网络VPC、交换机和安全组。具体操作,请参见搭建IPv4专有网络创建安全组。并将 Hologres 实例和 RAG 服务时配置于同一 VPC 内。

部署步骤

步骤一:准备 Hologres 向量检索库

  1. 创建 Hologres 实例
  2. 为 Hologres 实例创建数据库和账号,详情请参考 创建数据库
  • 创建账号后,需要给相应的账号完成数据库授权,请参考 Hologres权限模型,并连接HoloWeb检查相应权限。
  • 推荐使用简单权限模型对相应的账号授予 developer(开发者)以上权限。
  1. 配置数据库连接。
  • 访问 Hologres 控制台 ,选择实例列表中的对应实例,在实例详情页面可以看到网络信息,网络信息中的指定 VPC 地址即为 Hologres Endpoint。

步骤二:部署基于 DeepSeek 的 RAG 服务

  1. 进入 PAI-EAS 页面
  • 登陆 PAI 控制台,在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。如您尚未创建工作空间,请创建工作空间
  1. 在工作空间页面的左侧导航栏选择模型部署>模型在线服务(EAS),进入模型在线服务(EAS)页面。

  1. 部署大模型RAG对话系统页面,配置参数后单击部署。当服务状态变为运行中时,表示服务部署成功。关键参数说明如下。

参数

描述

基本信息

版本选择

支持部署以下两种版本:

  • LLM一体化部署:将大语言模型(LLM)服务和RAG服务部署在同一服务内。
  • LLM分离部署:仅部署RAG服务。但在RAG服务内,您可以自由更换和连接LLM服务,灵活性更高。

本文 Demo 选择 LLM一体化部署,您可以根据实际业务需求选择不同的部署版本。

模型类别

本文选择 QwQ-32B 系列模型为例,您可以根据具体使用场景选择相应的开源模型。

资源配置

资源配置选择

系统会根据已选择的模型类别,自动推荐适合的资源规格。更换至其他资源规格,可能会导致模型服务启动失败。

向量检索库设置

版本类型

选择Hologres

调用信息

配置为指定VPC的host信息。进入Hologres管理控制台的实例详情页,在网络信息区域单击指定VPC后的复制,获取域名:80前的host信息。

数据库名称

配置为Hologres实例的数据库名称。如何创建数据库,详情请参见创建数据库

账号

配置为已创建的自定义用户账号。具体操作,请参见创建自定义用户

密码

配置为已创建的自定义用户的密码。

表名称

输入新的表名称或已存在的表名称。

  • 对于不存在的表名称,PAI-RAG 将自动创建相应的向量索引表。
  • 对于已存在的表名称,表结构应符合PAI-RAG要求,例如可以填写之前通过EAS部署RAG服务自动创建的Hologres表。

专有网络配置

VPC

确保所配置的专有网络与 Hologres 实例保持一致。

交换机

安全组名称

步骤三:通过 WebUI 页面进行模型推理验证

RAG服务部署成功后,在模型在线服务(EAS)页面,选择推理服务页签,单击目标服务对应服务方式列下的查看Web应用,启动WebUI页面。

您可以在WebUI页面,参考以下操作步骤对服务进行调试。

1. 向量检索库与大语言模型设置

  1. Settings 页签,您可以修改Embedding相关参数以及使用的大语言模型。建议直接使用默认配置。配置好以后,点击 Update Indexing 即可保存。
  • Index 相关参数说明:

参数

描述

Index Name

系统支持对已有Index进行更新。您可以在下拉列表中选择New来新增Index,并通过指定索引名称实现不同知识库数据的隔离,详情请参见如何使用RAG服务进行知识库数据隔离?

EmbeddingType

支持huggingface和dashscope两种模型来源。

  • huggingface:系统提供内置的Embedding模型供您选择。
  • dashscope:使用百炼模型,默认使用text-embedding-v2模型,详情请参见Embedding

注:使用dashscope,您需要给EAS配置公网连接,并配置百炼的API Key。百炼模型调用需单独计费,请参见百炼计费项说明。

Embedding Dimension

输出向量维度。维度的设置对模型的性能有直接影响。在您选择Embedding模型后,系统将自动配置Embedding维度,无需手动操作。

Embedding Batch Size

批处理大小。

  • Large Language Model 相关参数:
  • 若大模型RAG对话系统服务版本选择LLM一体化部署,即大语言模型(LLM)服务和RAG服务部署在同一服务内,默认不用填写。
  • 若大模型RAG对话系统服务版本选择LLM分离式部署,按如下步骤获取服务地址和Token信息,完成填写。
  1. 进入模型在线服务(EAS)界面,在推理服务页签,单击目标服务名称。
  1. 概览页的基本信息里,单击查看调用信息
  2. 调用信息对话框中,根据连接方式选择,获取对应的服务访问地址和Token信息。

2. 上传指定的业务数据文件

Upload 页签中,您可以根据您的业务数据文件,设置语义切块参数,并上传指定的业务数据文件,系统将自动完成 Embedding 并存储到 Hologres 向量检索库中。

  1. 设置语义切块参数。

通过配置以下参数来控制文档切块粒度的大小和进行QA信息提取:

参数

描述

Chunk Size

指定每个分块的大小,单位为字节,默认为500。

Chunk Overlap

表示相邻分块之间的重叠量,默认为10。

Process with MultiModal

使用多模态模型处理,可以处理pdf、word、md文件的图片。如果您选择了使用多模态LLM,请打开此开关。

Process PDF with OCR

使用OCR模式解析PDF文件。

  1. 上传业务数据文件,支持的文件类型为.txt、.pdf、Excel(.xlsx或.xls)、.csv、Word(.docx或.doc)、Markdown或.html,支持本地文件、本地目录或 OSS 上传。
  2. 成功上传文件后,系统会先对上传的文件进行数据清洗(文本提取、超链接替换等)和语义切块,然后进行存储到 Hologres 向量检索库中。

3. 配置模型推理参数

Chat 页签中,您可以配置向量检索和模型推理验证的相关参数。

  • 通用参数

参数

说明

Streaming Output

选中Streaming Output后,系统将以流式方式输出结果。

Need Citation

回答中是否需要给出引用。

Inference with multi-modal LLM

使用多模态大语言模型时是否展示图片。

  • 向量检索相关参数,目前支持三种向量检索方式
  • Embedding Only:向量数据库检索召回。
  • Keyword Only:关键词检索召回。
  • Hybrid:向量数据库和关键词检索多路召回融合。
  • LLM 相关参数
  • Temperature :控制生成内容的随机性。温度值越低,输出结果也相对固定;而温度越高,输出结果则更具多样性和创造性。

4. 模型推理验证

Chat 页签选择使用的知识库索引(Index Name),配置问答策略,您可以选择多种方式对模型进行推理验证,调优对话系统。

  1. Retrieval:直接从 Hologres 向量数据库中检索并返回Top K条相似结果。

  1. LLM:直接使用LLM回答。

  1. Chat(Knowledge Base):将 Hologres 向量数据库检索返回的结果与用户问题合并填充至已选择的Prompt模板中,一并输入大语言模型服务进行处理,从中获取问答结果。

步骤四:通过 API 调用进行模型推理验证

当您在WebUI页面调试好问答效果后,可以基于PAI提供的API将其应用到您自己的业务系统中,操作步骤如下:

  1. 获取RAG服务的调用信息。
  2. 单击RAG服务名称,进入服务详情页面。
  3. 基本信息区域,单击查看调用信息
  4. 调用信息对话框的公网地址调用页签,获取服务访问地址和Token。
  5. API 调用请参考文档

Hologres 特色功能支持

Hologres 向量计算功能强大,支持高性能、低延时、简单易用的向量计算能力。详情请参见Proxima向量计算

在本文实例的 RAG 系统中,连接作为向量检索库的 Hologres 数据库后,可以查看已导入的知识库内容。

13个专题6万字详解,Hologres一体化实时湖仓实践手册发布

Hologres 3.0 全新升级为一体化实时湖仓平台,通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+Al 一体,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。立即下载>>https://developer.aliyun.com/ebook/8436电子书亮点:

ꔷ 结合Deepseek+PAI 构建RAG检索增强系统

ꔷ 结合Flink、Paimon、MaxCompute等构建一体化实时湖仓平台

Serverless系列功能快速入门,降价46%并保障资源隔离与稳定

ꔷ Dynamic Table、运维诊断优化、流量分析函数等3.0最新功能实践

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
目录
打赏
0
1
1
0
493
分享
相关文章
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
162 46
云上玩转Qwen3系列之二:PAI-LangStudio搭建联网搜索和RAG增强问答应用
本文详细介绍了如何使用 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
Hologres × PAI × DeepSeek 搭建 RAG 检索增强对话系统
本文介绍如何使用PAI-EAS部署基于DeepSeek大模型的RAG(检索增强生成)服务,并关联Hologres引擎实例。Hologres与阿里云自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时的向量计算能力。通过PAI-EAS,用户可以一键部署集成了大语言模型和RAG技术的对话系统服务,显著缩短部署时间,并提高问答质量。部署步骤包括准备Hologres向量检索库、部署基于DeepSeek的RAG服务、通过WebUI进行模型推理验证,以及通过API调用进行模型推理验证。Hologres还提供了特色功能支持,如高性能向量计算等。
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
886 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
431 1
Flink CDC + Hologres高性能数据同步优化实践
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
126 4

相关产品

  • 实时数仓 Hologres
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问