通过云上数据库三步构建RAG系统

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
推荐全链路深度定制开发平台,高级版 1个月
简介: 本文介绍了如何使用OpenSearch LLM智能问答版通过云上数据库一站式构建RAG系统。

随着AIGC技术日新月异的发展,LLM应用也在持续迭代,检索增强生成(RAG)系统已经成为企业知识库、智能客服、电商导购等场景的核心环节。阿里云OpenSearch LLM智能问答版联合数据集成Data Integration产品,帮助企业和开发者实现分钟级构建专属RAG系统。本教程介绍如何通过云上数据库一站式构建RAG系统。

方案概览

  • OpenSearch-LLM智能问答版:OpenSearch LLM智能问答版内置数据解析与处理、切片、向量化、文本&向量检索、多模态LLM等模型和功能,提供一站式开箱即用的RAG产品,快速构建包含问答、对话、文档链接、参考图片在内的多模态对话式搜索服务,帮助企业和开发者快速搭建专属RAG系统。
  • 数据集成 Data Integration:数据集成 Data Integration是阿里云对外提供的安全、低成本、稳定高效、弹性伸缩的数据同步平台,属于DataWorks的核心能力之一,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。


通过云上数据库一站式构建RAG系统,只需3步:

  1. 创建实例:我们首先分别创建OpenSearch-LLM智能问答版实例以及数据集成Data Integration实例。
  2. 配置数据同步任务:然后我们在数据集成控制台配置数据同步任务,将数据源数据同步到OpenSearch。
  3. 问答测试:最后我们登录OpenSearch-LLM智能问答版控制台对这个RAG系统进行问答效果测试。


创建实例

  1. 购买OpenSearch-LLM智能问答版实例:进入OpenSearch LLM智能问答版售卖页,按需求购买实例。

  2. 购买数据集成Data Integration实例:进入数据集成Data Integration售卖页,按需求购买实例,可选择独享资源通用资源


请务必保证OpenSearch-LLM智能问答版实例和数据集成Data Integration实例在同一地域。

  1. 登录DataWorks控制台,创建DataWorks工作空间,并将已购买的资源组绑定至当前工作空间。
    单击创建工作空间按钮:

    进行资源组配置

配置数据同步任务

  1. DataWorks工作空间列表界面,选择操作栏下选择快速进入->数据集成进入数据集成控制台,在创建同步任务中选择来源和去向后单击开始创建
  • 来源选择当前数据存储的云上数据库(本文以Elasticsearch为例)。
  • 去向选择OpenSearch。


  1. 设置新任务名称,同步类型选择单表离线,然后跳转到Datastudio进行配置。

    新建节点,节点类型选择离线同步,按需选择节点路径并点击确认。

  2. 选择数据源、数据集成资源组。
    按页面要求填写云上数据源,并完成连通性测试(如果未连通则按页面配置完成相应参数调整)。


  3. 单击下一步,完成数据去向配置。
    Elasticsearch数据源同步OpenSearch实例参考配置代码:
{
    "transform": false,
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "elasticsearch",
            "parameter": {
                "search": {
                    "match": {
                        "_type": "_doc"   //Elasticsearch中的数据查询条件
                    }
                },
                "datasource": "test",   //DataWorks中配置的数据源名称
                "retryCount": 30,
                "readTimeOut": "600000",
                "scroll": "1m",
                "column": [   //需要同步至OpenSearch中的原始字段,建议包含id、标题、内容等RAG系统常用字段
                    "id",
                    "title",
                    "content"
                ],
                "index": "main",    //OpenSearch中的表名,如果同步至主表则为main
                "pageSize": "100",
                "type": "default",
                "connTimeOut": "600000",
                "retrySleepTime": "10000"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "opensearch",
            "parameter": {
                "accessId": "",   //云账号accessId
                "endpoint": "http://opensearch.cn-shanghai.aliyuncs.com",   //OpenSearch上海区域Endpoint
                "accessKey": "",    //云账号accessKey
                "indexName": "data_es",   //OpenSearch实例名称
                "host": "http://opensearch-cn-shanghai.aliyuncs.com",   //OpenSearch上海区域host
                "column": [   //同步至OpenSearch的目标字段,OpenSearch主表结构可参考控制台或产品文档
                    "id",
                    "title",
                    "content"
                ],
                "writeMode": "add",
                "batchSize": "10",
                "skipDirtyRecord": "true",
                "ignoreWriteError": "false",
                "table": "main"
            },
            "name": "Writer",
            "category": "writer"
        },
        {
            "copies": 1,
            "parameter": {
                "nodes": [],
                "edges": [],
                "groups": [],
                "version": "2.0"
            },
            "name": "Processor",
            "category": "processor"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh",
        "speed": {
            "throttle": false,
            "concurrent": 2
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

配置完成后,单击运行,即可开启离线数据同步任务。

问答测试

  1. 登录OpenSearch-LLM智能问答版控制台,单击操作栏下的管理按钮进入实例详情界面,在左侧导航栏选择配置中心->数据配置,可查看已导入的文档。

  2. 在左侧导航栏选择问答测试,即可调整问答参数并测试问答效果。

效果预览

OpenSearch-LLM智能问答版支持pdf、doc、html、ppt等丰富形式的非结构化数据,和excel、json等结构化数据,还能支持对于图片等多模态内容的理解,可方便快捷的构建智能问答、对话式搜索系统。

总结

至此,您已完成了云上数据源的数据同步以及RAG系统的搭建,后续只要将OpenSearch相应的接口接入到业务中,就可以支持企业知识库、智能文档、电商导购、教育问答等多种多样的场景。

相关文章
|
12天前
|
关系型数据库 MySQL 数据库
【Mac os系统】安装MySQL数据库
本文详细介绍了在Mac OS系统上安装MySQL数据库的步骤,包括下载、安装、配置环境变量、启动服务、授权设置以及解决常见问题,并提供了一些常用的MySQL命令。
37 0
【Mac os系统】安装MySQL数据库
|
13天前
|
存储 关系型数据库 MySQL
基于python django 医院管理系统,多用户功能,包括管理员、用户、医生,数据库MySQL
本文介绍了一个基于Python Django框架开发的医院管理系统,该系统设计了管理员、用户和医生三个角色,具备多用户功能,并使用MySQL数据库进行数据存储和管理。
基于python django 医院管理系统,多用户功能,包括管理员、用户、医生,数据库MySQL
|
11天前
|
数据采集 数据可视化 关系型数据库
【优秀python web设计】基于Python flask的猫眼电影可视化系统,可视化用echart,前端Layui,数据库用MySQL,包括爬虫
本文介绍了一个基于Python Flask框架、MySQL数据库和Layui前端框架的猫眼电影数据采集分析与可视化系统,该系统通过爬虫技术采集电影数据,利用数据分析库进行处理,并使用Echart进行数据的可视化展示,以提供全面、准确的电影市场分析结果。
|
18天前
|
存储 测试技术 数据处理
【计算机三级数据库技术】第2章 信息系统需求分析完整知识体系--附思维导图
本文详细介绍了信息系统需求分析的知识体系,包括需求分析的概念和意义、需求获取的方法、需求分析的过程,以及需求分析方法,如DFD数据流图、IDEF0、UML等。文章通过结构化分析和功能建模方法,帮助读者理解如何标识问题、建立需求模型、描述和确认需求,并比较了DFD与IDEF0两种方法的异同,同时提供了思维导图以辅助理解。
45 12
|
10天前
|
数据库连接 数据库 数据安全/隐私保护
【Python】python学生体能考核成绩管理系统(数据库) (源码+报告)【独一无二】
【Python】python学生体能考核成绩管理系统(数据库) (源码+报告)【独一无二】
|
17天前
|
数据可视化 架构师 测试技术
【计算机三级数据库技术】第5章 UML与数据库应用系统--附思维导图
本文提供了UML在数据库应用系统设计中的应用概览,包括UML建模框架、视图、四大图的介绍,以及如何使用活动图、用例图、类图、顺序图等UML图来表达业务流程、系统需求和内部结构,最后还涉及了系统微观和宏观设计的UML表达方式。
24 4
|
15天前
|
存储 关系型数据库 数据库
现代数据库管理系统的性能优化策略探讨
传统数据库管理系统在处理大数据和高并发请求时常常遇到性能瓶颈,本文探讨了现代数据库管理系统中采用的几种性能优化策略,包括索引优化、查询优化、存储引擎选择以及硬件配置等方面,以提升系统的整体响应速度和稳定性。
|
16天前
|
存储 负载均衡 中间件
构建可扩展的分布式数据库:技术策略与实践
【8月更文挑战第3天】构建可扩展的分布式数据库是一个复杂而具有挑战性的任务。通过采用数据分片、复制与一致性模型、分布式事务管理和负载均衡与自动扩展等关键技术策略,并合理设计节点、架构模式和网络拓扑等关键组件,可以构建出高可用性、高性能和可扩展的分布式数据库系统。然而,在实际应用中还需要注意解决数据一致性、故障恢复与容错性以及分布式事务的复杂性等挑战。随着技术的不断发展和创新,相信分布式数据库系统将在未来发挥更加重要的作用。
|
17天前
|
存储 安全 测试技术
【计算机三级数据库技术】第4章 数据库应用系统功能设计与实现--附思维导图
重点介绍了数据库应用系统(DBAS)的功能设计和实现。
11 1
|
4天前
|
安全 Nacos 数据库
【技术安全大揭秘】Nacos暴露公网后被非法访问?!6大安全加固秘籍,手把手教你如何保护数据库免遭恶意篡改,打造坚不可摧的微服务注册与配置中心!从限制公网访问到启用访问控制,全方位解析如何构建安全防护体系,让您从此告别数据安全风险!
【8月更文挑战第15天】Nacos是一款广受好评的微服务注册与配置中心,但其公网暴露可能引发数据库被非法访问甚至篡改的安全隐患。本文剖析此问题并提供解决方案,包括限制公网访问、启用HTTPS、加强数据库安全、配置访问控制及监控等,帮助开发者确保服务安全稳定运行。
11 0