智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。

背景介绍

近年来,大语言模型在传统行业的赋能改造中发挥了重要作用,越来越多基于大语言模型的业务解决方案相继被提出。PolarDB开源社区作为一个活跃的平台,鼓励用户在其中分享数据库使用体验、询问数据库相关操作,同时联合华东师范大学推出“PolarDB知识问答助手”,帮助用户更好学习PolarDB基础知识,从而有效促进社区内的知识流通。

近期,“PolarDB知识问答助手”完成进一步升级,基于阿里自研的云原生数据仓库AnalyticDB+通义千问大模型,实现了一站式的全链路RAG能力,避免因AI系统引入多个引擎造成数据孤岛和复杂的运维问题,大幅提高了查询检索效率和问答准确率,为用户带来更流畅和精准的使用体验。

架构介绍

image.png

(PolarDB开源社区机器人的问答框架)

该问答框架基于云原生数据仓库AnalyticDB PostgreSQL版引入私域知识(PolarDB操作文档、数据库概念文档、用户会话、社区历史、反馈标注等)构建专属知识库,提供文档处理、向量检索、Embedding、Rerank和查询召回等能力,利用通义千问大模型强大的意图理解和人性化表达能力,最后通过RAG架构调优提升知识匹配精准性,输出问答结果。

RAG自动问答原理

image.png

如上图所示为传统的检索增强生成(Retrieval-augmented Generation,简称RAG)框架。这一框架在处理用户问题时,首先会从静态知识库如技术文档、手册等和历史对话库中检索出相关的文本片段。接下来,系统利用大语言模型对这些检索到的文本片段进行上下文整合和深度理解,然后生成并输出一个准确且有针对性的答案作为回复。鉴于通义千问大模型在理解和生成方面表现出的卓越能力,我们选择将其作为系统中的大语言模型支撑。

升级**AnalyticDB一站式RAG服务**

云原生数据仓库 AnalyticDB PostgreSQL 版(下文简称ADB PG)是高并发低延时的PB级实时数据仓库,兼容ANSI SQL 2003、PostgreSQL和Oracle数据库,毫秒级对万亿级数据进行即时的多维分析透视和业务探索。ADB PG具备完整的事务处理、高吞吐写入和流批一体引擎,通过全自研计算引擎及行列混合存储提供高性能数据处理和在线分析能力,可以帮助企业构建离在线一体、流批一体的综合数据分析平台,此外,ADB PG在数仓中内置AI功能,提供向量检索、一站式RAG服务,以及企业知识库、文搜图、图搜图等功能和解决方案,帮助企业快速构建AI应用,一键开启Data+AI新范式。

在社区问答中,我们利用ADB PG来构建专属大模型知识库,并进行数据的高效检索和查询。

构建专属知识库

与传统的RAG框架不同,我们的自动问答系统基于ADB PG构建了专属私域知识库,不仅整合了静态知识库(如PolarDB相关操作手册),还结合了动态知识库(社区内的对话历史),协同提供更加准确高效的问答服务。

静态知识库

为了实现对PolarDB社区中数据的高效管理,我们首先为静态知识库构建了一个名为polardb_x的文档库。在这一过程中,通过定义元数据(meta数据),我们可以存储文件路径、URL以及文档来源,以便于检索和管理

动态知识库

针对PolarDB相关的历史对话数据,我们建立了专门的动态知识库,用于维护高质量的社区问答记录,并进行实时更新。该动态知识库采用启发式的存储结构,根据问题类型进行分类管理,持续用近期的对答替换时间久远的内容,以保持动态知识库的活力与质量。这种方法确保系统在提供准确答案的同时,也能快速适应不断变化的用户需求,让用户享受流畅和自然的对话过程。

image.png

数据检索与查询

ADB PG全自研高性能RAG引擎,支持高并发、低延时标签过滤+向量检索+全文检索融合分析。内置一站式RAG开发服务 (文档处理、Embedding、向量检索、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维,一站式数据检索与查询的流程如下:

1)数据预处理:在向量化之前需要对非结构化的文档、图片进行预处理,包括文档/图片解析、切块,预处理的质量会对问答召回和准确率有非常大的影响。

2)Embedding: 通过大模型的Embedding算法对预处理后的数据块进行向量化,并将结果存储到向量数据库中。

3)向量检索: 大模型将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时结合结构化的条件过滤进行权限和范围的限定

4)查询召回:大模型对向量检索的结果进行推理求解最终返回最接近问题的答案,因为语义检索的覆盖面可能不全,因此可以结合全文检索对答案进行补充。

image.png

具体来说,为了确保查询能获得高质量的相关文本片段,我们采用统一的ADB PG来替代原有的SQLite和pgvector双表结构,同时支撑静态和动态知识库。这不仅减少了维护成本和查询逻辑,还能同时支持检索对话历史与社区问答看板功能。我们还设计了AdbpgRetriever类(检索器)和get_QA_similarity函数(排序机制),可以在ADB PG构建的知识库中高效地检索相关数据,辅助RAG问答框架生成准确的答案。具体释义如下:

AdbpgRetriever类

AdbpgRetriever类负责从知识库中检索相关文档。该类通过query_content方法查询内容,并通过_get_relevant_documents方法返回相关文档。

get_QA_similarity 函数

get_QA_similarity函数则用于从对话历史表中检索最相关的问答记录。该函数首先计算查询的嵌入向量,然后执行SQL查询以找到与查询最相似的记录。AnalyticDB还支持Rerank重排序功能,会对结果进行进一步的筛选和排序,进一步优化最初的检索效果,显著提高最终推荐内容的相关性和用户满意度。

我们可以在ADB PG构建的知识库中高效地检索相关数据,辅助RAG问答框架生成准确的答案。

问答机器人支持的功能

基于 AnalyticDB进行架构升级后的社区问答机器人具有以下的功能:

  • 支持知识库的安全上传和方便管理,并支持投放用户群的知识库配置。

  • 对开源数据库使用、编码、PolarDB社区相关问题的回答能力,以及传统SQL代码转换为PolarDB-X的分布式查询代码。

  • 拥有对语料准确的理解、总结、概括和阐述能力,针对用户发起的问题,能够提供专业准确的回答。

  • 机器人支持多种服务场景:提供API接口,支持多渠道能力接入和投放。

  • 指定场景下支持用户的回复反馈,包括点赞和纠正交互入口。

  • 机器人基于收集到的社区问题,能够对数据进行有效统计用于效果分析。

总结与展望

基于云原生数据仓库 AnalyticDB PostgreSQL 版和通义千问大模型,PolarDB开源社区自动问答机器人进一步升级,不仅减少了维护成本和查询逻辑,还能同时支持检索对话历史与社区问答看板功能,并且通过后续重排进一步提升答案的质量。这次的架构升级旨在确保用户的每一次提问都能获得高质量的回答,也是AnalyticDB结合通义千问大模型的一次实战演练。

目前我们的机器人已经投放在PolarDB开源社区部分钉群,相关服务能力在持续优化,欢迎开源社区的朋友使用并提出意见!

如果您对PolarDB分布式数据库感兴趣,并想体验相关服务,可以通过扫码加入钉群,

image.png

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
1月前
|
人工智能 自然语言处理 API
用AI Agent做一个法律咨询助手,罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台
本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置,无需编写代码或训练模型,即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终,用户可以通过API调用集成此AI Agent到现有系统中,提供专业的法律咨询服务。整个过程简便高效,适合快速搭建专业领域的小助手。
216 22
|
2月前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
2月前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
1月前
|
对象存储 数据安全/隐私保护
通义灵码企业检索增强-企业知识问答查询场景DEMO
通义灵码企业检索增强DEMO展示了企业知识问答查询的应用场景。通过workspace本地工程问答,系统能快速定位OSS访问凭证的代码,并从企业知识库中推荐标准的OSS凭证管理方法。演示还包括根据推荐技术方案自动修改代码,实现AK轮转和标准化配置,确保企业内OSS AK管理方式的统一与规范。
|
2月前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
454 8
|
3月前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
83 11
|
4月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
4月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
|
4月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
328 0