智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。

背景介绍

近年来,大语言模型在传统行业的赋能改造中发挥了重要作用,越来越多基于大语言模型的业务解决方案相继被提出。PolarDB开源社区作为一个活跃的平台,鼓励用户在其中分享数据库使用体验、询问数据库相关操作,同时联合华东师范大学推出“PolarDB知识问答助手”,帮助用户更好学习PolarDB基础知识,从而有效促进社区内的知识流通。

近期,“PolarDB知识问答助手”完成进一步升级,基于阿里自研的云原生数据仓库AnalyticDB+通义千问大模型,实现了一站式的全链路RAG能力,避免因AI系统引入多个引擎造成数据孤岛和复杂的运维问题,大幅提高了查询检索效率和问答准确率,为用户带来更流畅和精准的使用体验。

架构介绍

image.png

(PolarDB开源社区机器人的问答框架)

该问答框架基于云原生数据仓库AnalyticDB PostgreSQL版引入私域知识(PolarDB操作文档、数据库概念文档、用户会话、社区历史、反馈标注等)构建专属知识库,提供文档处理、向量检索、Embedding、Rerank和查询召回等能力,利用通义千问大模型强大的意图理解和人性化表达能力,最后通过RAG架构调优提升知识匹配精准性,输出问答结果。

RAG自动问答原理

image.png

如上图所示为传统的检索增强生成(Retrieval-augmented Generation,简称RAG)框架。这一框架在处理用户问题时,首先会从静态知识库如技术文档、手册等和历史对话库中检索出相关的文本片段。接下来,系统利用大语言模型对这些检索到的文本片段进行上下文整合和深度理解,然后生成并输出一个准确且有针对性的答案作为回复。鉴于通义千问大模型在理解和生成方面表现出的卓越能力,我们选择将其作为系统中的大语言模型支撑。

升级**AnalyticDB一站式RAG服务**

云原生数据仓库 AnalyticDB PostgreSQL 版(下文简称ADB PG)是高并发低延时的PB级实时数据仓库,兼容ANSI SQL 2003、PostgreSQL和Oracle数据库,毫秒级对万亿级数据进行即时的多维分析透视和业务探索。ADB PG具备完整的事务处理、高吞吐写入和流批一体引擎,通过全自研计算引擎及行列混合存储提供高性能数据处理和在线分析能力,可以帮助企业构建离在线一体、流批一体的综合数据分析平台,此外,ADB PG在数仓中内置AI功能,提供向量检索、一站式RAG服务,以及企业知识库、文搜图、图搜图等功能和解决方案,帮助企业快速构建AI应用,一键开启Data+AI新范式。

在社区问答中,我们利用ADB PG来构建专属大模型知识库,并进行数据的高效检索和查询。

构建专属知识库

与传统的RAG框架不同,我们的自动问答系统基于ADB PG构建了专属私域知识库,不仅整合了静态知识库(如PolarDB相关操作手册),还结合了动态知识库(社区内的对话历史),协同提供更加准确高效的问答服务。

静态知识库

为了实现对PolarDB社区中数据的高效管理,我们首先为静态知识库构建了一个名为polardb_x的文档库。在这一过程中,通过定义元数据(meta数据),我们可以存储文件路径、URL以及文档来源,以便于检索和管理

动态知识库

针对PolarDB相关的历史对话数据,我们建立了专门的动态知识库,用于维护高质量的社区问答记录,并进行实时更新。该动态知识库采用启发式的存储结构,根据问题类型进行分类管理,持续用近期的对答替换时间久远的内容,以保持动态知识库的活力与质量。这种方法确保系统在提供准确答案的同时,也能快速适应不断变化的用户需求,让用户享受流畅和自然的对话过程。

image.png

数据检索与查询

ADB PG全自研高性能RAG引擎,支持高并发、低延时标签过滤+向量检索+全文检索融合分析。内置一站式RAG开发服务 (文档处理、Embedding、向量检索、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维,一站式数据检索与查询的流程如下:

1)数据预处理:在向量化之前需要对非结构化的文档、图片进行预处理,包括文档/图片解析、切块,预处理的质量会对问答召回和准确率有非常大的影响。

2)Embedding: 通过大模型的Embedding算法对预处理后的数据块进行向量化,并将结果存储到向量数据库中。

3)向量检索: 大模型将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时结合结构化的条件过滤进行权限和范围的限定

4)查询召回:大模型对向量检索的结果进行推理求解最终返回最接近问题的答案,因为语义检索的覆盖面可能不全,因此可以结合全文检索对答案进行补充。

image.png

具体来说,为了确保查询能获得高质量的相关文本片段,我们采用统一的ADB PG来替代原有的SQLite和pgvector双表结构,同时支撑静态和动态知识库。这不仅减少了维护成本和查询逻辑,还能同时支持检索对话历史与社区问答看板功能。我们还设计了AdbpgRetriever类(检索器)和get_QA_similarity函数(排序机制),可以在ADB PG构建的知识库中高效地检索相关数据,辅助RAG问答框架生成准确的答案。具体释义如下:

AdbpgRetriever类

AdbpgRetriever类负责从知识库中检索相关文档。该类通过query_content方法查询内容,并通过_get_relevant_documents方法返回相关文档。

get_QA_similarity 函数

get_QA_similarity函数则用于从对话历史表中检索最相关的问答记录。该函数首先计算查询的嵌入向量,然后执行SQL查询以找到与查询最相似的记录。AnalyticDB还支持Rerank重排序功能,会对结果进行进一步的筛选和排序,进一步优化最初的检索效果,显著提高最终推荐内容的相关性和用户满意度。

我们可以在ADB PG构建的知识库中高效地检索相关数据,辅助RAG问答框架生成准确的答案。

问答机器人支持的功能

基于 AnalyticDB进行架构升级后的社区问答机器人具有以下的功能:

  • 支持知识库的安全上传和方便管理,并支持投放用户群的知识库配置。

  • 对开源数据库使用、编码、PolarDB社区相关问题的回答能力,以及传统SQL代码转换为PolarDB-X的分布式查询代码。

  • 拥有对语料准确的理解、总结、概括和阐述能力,针对用户发起的问题,能够提供专业准确的回答。

  • 机器人支持多种服务场景:提供API接口,支持多渠道能力接入和投放。

  • 指定场景下支持用户的回复反馈,包括点赞和纠正交互入口。

  • 机器人基于收集到的社区问题,能够对数据进行有效统计用于效果分析。

总结与展望

基于云原生数据仓库 AnalyticDB PostgreSQL 版和通义千问大模型,PolarDB开源社区自动问答机器人进一步升级,不仅减少了维护成本和查询逻辑,还能同时支持检索对话历史与社区问答看板功能,并且通过后续重排进一步提升答案的质量。这次的架构升级旨在确保用户的每一次提问都能获得高质量的回答,也是AnalyticDB结合通义千问大模型的一次实战演练。

目前我们的机器人已经投放在PolarDB开源社区部分钉群,相关服务能力在持续优化,欢迎开源社区的朋友使用并提出意见!

如果您对PolarDB分布式数据库感兴趣,并想体验相关服务,可以通过扫码加入钉群,

image.png

相关文章
|
7天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179585 20
|
14天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
16天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9375 23
|
20天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
5051 15
资料合集|Flink Forward Asia 2024 上海站
|
20天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
28天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
16天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
15天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1188 72