通过云上数据库三步构建RAG系统

简介: 本文介绍了如何使用OpenSearch LLM智能问答版通过云上数据库一站式构建RAG系统。

随着AIGC技术日新月异的发展,LLM应用也在持续迭代,检索增强生成(RAG)系统已经成为企业知识库、智能客服、电商导购等场景的核心环节。阿里云OpenSearch LLM智能问答版联合数据集成Data Integration产品,帮助企业和开发者实现分钟级构建专属RAG系统。本教程介绍如何通过云上数据库一站式构建RAG系统。

方案概览

  • OpenSearch-LLM智能问答版:OpenSearch LLM智能问答版内置数据解析与处理、切片、向量化、文本&向量检索、多模态LLM等模型和功能,提供一站式开箱即用的RAG产品,快速构建包含问答、对话、文档链接、参考图片在内的多模态对话式搜索服务,帮助企业和开发者快速搭建专属RAG系统。
  • 数据集成 Data Integration:数据集成 Data Integration是阿里云对外提供的安全、低成本、稳定高效、弹性伸缩的数据同步平台,属于DataWorks的核心能力之一,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。


通过云上数据库一站式构建RAG系统,只需3步:

  1. 创建实例:我们首先分别创建OpenSearch-LLM智能问答版实例以及数据集成Data Integration实例。
  2. 配置数据同步任务:然后我们在数据集成控制台配置数据同步任务,将数据源数据同步到OpenSearch。
  3. 问答测试:最后我们登录OpenSearch-LLM智能问答版控制台对这个RAG系统进行问答效果测试。


创建实例

  1. 购买OpenSearch-LLM智能问答版实例:进入OpenSearch LLM智能问答版售卖页,按需求购买实例。

  2. 购买数据集成Data Integration实例:进入数据集成Data Integration售卖页,按需求购买实例,可选择独享资源通用资源


请务必保证OpenSearch-LLM智能问答版实例和数据集成Data Integration实例在同一地域。

  1. 登录DataWorks控制台,创建DataWorks工作空间,并将已购买的资源组绑定至当前工作空间。
    单击创建工作空间按钮:

    进行资源组配置

配置数据同步任务

  1. DataWorks工作空间列表界面,选择操作栏下选择快速进入->数据集成进入数据集成控制台,在创建同步任务中选择来源和去向后单击开始创建
  • 来源选择当前数据存储的云上数据库(本文以Elasticsearch为例)。
  • 去向选择OpenSearch。


  1. 设置新任务名称,同步类型选择单表离线,然后跳转到Datastudio进行配置。

    新建节点,节点类型选择离线同步,按需选择节点路径并点击确认。

  2. 选择数据源、数据集成资源组。
    按页面要求填写云上数据源,并完成连通性测试(如果未连通则按页面配置完成相应参数调整)。


  3. 单击下一步,完成数据去向配置。
    Elasticsearch数据源同步OpenSearch实例参考配置代码:
{
    "transform": false,
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "elasticsearch",
            "parameter": {
                "search": {
                    "match": {
                        "_type": "_doc"   //Elasticsearch中的数据查询条件
                    }
                },
                "datasource": "test",   //DataWorks中配置的数据源名称
                "retryCount": 30,
                "readTimeOut": "600000",
                "scroll": "1m",
                "column": [   //需要同步至OpenSearch中的原始字段,建议包含id、标题、内容等RAG系统常用字段
                    "id",
                    "title",
                    "content"
                ],
                "index": "main",    //OpenSearch中的表名,如果同步至主表则为main
                "pageSize": "100",
                "type": "default",
                "connTimeOut": "600000",
                "retrySleepTime": "10000"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "opensearch",
            "parameter": {
                "accessId": "",   //云账号accessId
                "endpoint": "http://opensearch.cn-shanghai.aliyuncs.com",   //OpenSearch上海区域Endpoint
                "accessKey": "",    //云账号accessKey
                "indexName": "data_es",   //OpenSearch实例名称
                "host": "http://opensearch-cn-shanghai.aliyuncs.com",   //OpenSearch上海区域host
                "column": [   //同步至OpenSearch的目标字段,OpenSearch主表结构可参考控制台或产品文档
                    "id",
                    "title",
                    "content"
                ],
                "writeMode": "add",
                "batchSize": "10",
                "skipDirtyRecord": "true",
                "ignoreWriteError": "false",
                "table": "main"
            },
            "name": "Writer",
            "category": "writer"
        },
        {
            "copies": 1,
            "parameter": {
                "nodes": [],
                "edges": [],
                "groups": [],
                "version": "2.0"
            },
            "name": "Processor",
            "category": "processor"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh",
        "speed": {
            "throttle": false,
            "concurrent": 2
        }
    },
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    }
}

配置完成后,单击运行,即可开启离线数据同步任务。

问答测试

  1. 登录OpenSearch-LLM智能问答版控制台,单击操作栏下的管理按钮进入实例详情界面,在左侧导航栏选择配置中心->数据配置,可查看已导入的文档。

  2. 在左侧导航栏选择问答测试,即可调整问答参数并测试问答效果。

效果预览

OpenSearch-LLM智能问答版支持pdf、doc、html、ppt等丰富形式的非结构化数据,和excel、json等结构化数据,还能支持对于图片等多模态内容的理解,可方便快捷的构建智能问答、对话式搜索系统。

总结

至此,您已完成了云上数据源的数据同步以及RAG系统的搭建,后续只要将OpenSearch相应的接口接入到业务中,就可以支持企业知识库、智能文档、电商导购、教育问答等多种多样的场景。

相关文章
|
6月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
7月前
|
SQL 弹性计算 关系型数据库
如何用读写分离构建高效稳定的数据库架构?
在少写多读业务场景中,主实例读请求压力大,影响性能。通过创建只读实例并使用数据库代理实现读写分离,可有效降低主实例负载,提升系统性能与可用性。本文详解配置步骤,助你构建高效稳定的数据库架构。
存储 人工智能 机器人
213 0
|
7月前
|
安全 关系型数据库 数据管理
阿里云数据库:构建高性能与安全的数据管理系统
阿里云数据库提供RDS、PolarDB、Tair等核心产品,具备高可用、弹性扩展、安全合规及智能运维等技术优势,广泛应用于电商、游戏、金融等行业,助力企业高效管理数据,提升业务连续性与竞争力。
|
9月前
|
SQL 监控 安全
数据库安全审计系统
Next-DBM数据库审计系统助力企业解决数据安全难题,提供统一身份管理、全方位监控、智能风险识别、完整审计追溯及精细化权限管控,有效防范数据泄露与内部威胁,保障企业核心资产安全,满足合规要求,提升运维效率。
|
9月前
|
缓存 NoSQL Linux
在CentOS 7系统中彻底移除MongoDB数据库的步骤
以上步骤完成后,MongoDB应该会从您的CentOS 7系统中被彻底移除。在执行上述操作前,请确保已经备份好所有重要数据以防丢失。这些步骤操作需要一些基本的Linux系统管理知识,若您对某一步骤不是非常清楚,请先进行必要的学习或咨询专业人士。在执行系统级操作时,推荐在实施前创建系统快照或备份,以便在出现问题时能够恢复到原先的状态。
862 79
|
11月前
|
人工智能 数据挖掘 API
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
1001 21
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
|
11月前
|
Java 数据库 Docker
基于neo4j数据库和dify大模型框架的rag模型搭建
基于neo4j数据库和dify大模型框架的rag模型搭建
3099 35