【最佳实践】大数据时代,通过OSS快照迁移Elasticsearch数据

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 本文以将自建Elasticsearch迁移至阿里云Elasticsearch中为例,为您介绍通过OSS快照迁移数据的具体方法。

当您需要在Elasticsearch集群间迁移数据,或者需要恢复Elasticsearch中的数据时,可通过OSS快照的方式来实现。OSS快照方式的数据迁移,适用于数据量比较大的场景,简单流程如下。
在这里插入图片描述

本文以将自建Elasticsearch迁移至阿里云Elasticsearch中为例,为您介绍通过OSS快照迁移数据的具体方法。
阿里云Elasticsearch兼容开源Elasticsearch的功能,以及Security、Machine Learning、Graph、APM等商业功能,致力于数据分析、数据搜索等场景服务。支持5.5.3、6.3.2、6.7.0、6.8.0和7.4.0等版本,并提供了商业插件X-Pack服务。在开源Elasticsearch的基础上提供企业级权限管控、安全监控告警、自动报表生成等功能。阿里云Elasticsearch为您提供1个月的免费试用活动,单击此处即可免费试用。
与开源Elasticsearch相比,阿里云Elasticsearch提供了高可用性高安全性等功能特性。并且提供Elasticsearch和Kibana的全托管服务,您可以按需付费,即买即用。在此基础上,还对内核性能进行了优化,提供独立的index build服务、存储计算分离、智能运维、达摩院分词器、商业插件等功能。

操作流程

  1. 准备工作

    完成搭建自建Elasticsearch集群、创建OSS Bucket、创建阿里云Elasticsearch集群。

  2. 步骤一:安装elasticsearch-repository-oss插件

    在自建Elasticsearch各节点中安装elasticsearch-repository-oss插件,插件安装后才可在自建Elasticsearch中创建OSS仓库。

  3. 步骤二:在自建Elasticsearch集群中创建仓库

    使用snapshot API在自建Elasticsearch中创建快照备份仓库。

  4. 步骤三:为指定索引创建快照

    为需要迁移的索引创建快照,并将快照备份到已创建的仓库中。

  5. 步骤四:在阿里云Elasticsearch上创建相同仓库

    在阿里云Elasticsearch的Kibana控制台中,使用snapshot API创建一个与自建Elasticsearch相同的快照备份仓库。

  6. 步骤五:在阿里云Elasticsearch上恢复快照

    将仓库中已备份的自建Elasticsearch的快照恢复到阿里云Elasticsearch中,完成数据迁移。

  7. 步骤六:查看快照恢复结果

    快照恢复后,查看恢复的索引和索引数据。

准备工作

  1. 准备自建Elasticsearch集群。

    如果您还没有自建Elasticsearch集群,建议您使用阿里云ECS进行搭建,具体操作步骤请参见安装并运行Elasticsearch

    本文以单节点的Elasticsearch集群为例进行演示,版本为6.7.0。实际生产中您可以购买多个相同专有网络VPC(Virtual Private Cloud)的ECS搭建Elasticsearch集群,购买ECS的具体步骤请参见使用向导创建实例

  2. 开通OSS服务,并创建与自建Elasticsearch所在ECS相同区域的Bucket。

    具体操作步骤请参见开通OSS服务创建存储空间

    说明: 请创建标准存储类型的OSS Bucket,不支持归档存储类型。

  3. 创建目标阿里云Elasticsearch实例,所选区域与您创建的Bucket相同。

    具体操作步骤请参见创建阿里云Elasticsearch实例

步骤一:安装elasticsearch-repository-oss插件

  1. 连接自建Elasticsearch集群所在的ECS。

    说明: 连接ECS的方式请参见连接Linux实例

  2. 下载elasticsearch-repository-oss插件。

    本文使用6.7.0版本的插件,要求JDK为11.0及以上版本。

    wget https://github.com/aliyun/elasticsearch-repository-oss/releases/download/v6.7.0/elasticsearch-repository-oss-6.7.0.zip
    
  3. 将安装包解压到自建Elasticsearch各节点安装路径的plugins目录下。

    unzip -d /home/elastic/app/elasticsearch-6.7.0/plugins elasticsearch-repository-oss-6.7.0.zip
    

    说明: 请将/home/app/elasticsearch-6.7.0替换为您自建Elasticsearch的安装路径。

  4. 修改插件的plugin-descriptor.properties文件中Elasticsearch集群的版本号,将其设置为当前Elasticsearch集群的版本。

    说明: 如果您使用的elasticsearch-repository-oss插件的版本与您自建Elasticsearch集群的版本相同,可忽略此步骤。

    使用以下命令打开plugin-descriptor.properties文件,将elasticsearch.version设置为当前Elasticsearch集群的版本。

    vim /home/elastic/app/elasticsearch-6.7.0/plugins/plugin-descriptor.properties
    

    在这里插入图片描述

  1. 启动自建Elasticsearch集群各节点。

    cd /home/app/elasticsearch-6.7.0/bin
    ./elasticsearch -d
    

    说明: 请将/home/app/elasticsearch-6.7.0替换为您自建Elasticsearch的安装路径。

步骤二:在自建Elasticsearch集群中创建仓库

连接自建Elasticsearch所在的ECS,执行如下命令创建仓库。

curl -H "Content-Type: application/json" -XPUT localhost:9200/_snapshot/es_backup -d' {"type": "oss", "settings": { "endpoint": "http://oss-cn-hangzhou-internal.aliyuncs.com",  "access_key_id": "your_accesskeyid",  "secret_access_key":"your_accesskeysecret", "bucket": "es-backup-es", "compress": true }}'
参数 说明
es_backup 仓库名称,可自定义。
type 仓库类型,请设置为oss
endpoint OSS Bucket的访问地址,请参见访问域名和数据中心获取。
说明: 如果自建Elasticsearch所在ECS与您的OSS在同一区域,请使用内网地址,否则请使用外网地址。
access_key_id 创建OSS Bucket的账号的AccessKey ID,获取方式请参见如何获取AccessKeyId和AccessKeySecret
secret_access_key 创建OSS Bucket的账号的AccessKey Secret,获取方式请参见如何获取AccessKeyId和AccessKeySecret
bucket 您创建的OSS Bucket名称。
compress 是否压缩。

创建成功后,返回"acknowledge":true

步骤三:为指定索引创建快照

在自建Elasticsearch中创建一个快照,用来备份您需要迁移的索引数据。创建快照时,默认会备份所有打开的索引。如果您不想备份系统索引,例如以.kibana、.security、.monitoring等开头的索引,可在快照时指定需要备份的索引。

注意: 建议您不要备份系统索引,因为系统索引会占用较大空间。

curl -H "Content-Type: application/json" -XPUT localhost:9200/_snapshot/es_backup/snapshot_1?pretty -d'
{
"indices": "index1,index2"
}'

index1index2为您需要备份的索引名称。快照创建成功后,返回"accepted" : true

步骤四:在阿里云Elasticsearch上创建相同仓库

  1. 登录阿里云Elasticsearch的Kibana控制台。

    登录控制台的具体步骤请参见[t615643.md#]

  2. 在左侧导航栏单击Dev Tools

  3. Console中执行以下命令,创建与自建Elasticsearch相同的仓库。

    PUT _snapshot/es_backup
    {
        "type": "oss",
        "settings": {
            "endpoint": "oss-cn-hangzhou-internal.aliyuncs.com",
            "access_key_id": "your_accesskeyid",
            "secret_access_key": "your_accesskeysecret",
            "bucket": "es-backup-es",
            "compress": true
        }
    }
    

步骤五:在阿里云Elasticsearch上恢复快照

参见步骤四:在阿里云Elasticsearch上创建相同仓库,在Kibana控制台上执行以下命令,恢复快照中的所有索引(除过.开头的系统索引)。

POST _snapshot/es_backup/snapshot_1/_restore
{"indices":"*,-.monitoring*,-.security_audit*","ignore_unavailable":"true"}

命令执行成功,返回"accepted" : true

以上命令会恢复快照中的所有索引,您也可以选择需要恢复的索引。同时如果阿里云Elasticsearch集群中有同名索引,而您想在不替换现有数据的前提下,恢复旧数据来验证内容,或者处理其他任务,可在恢复过程中重命名索引。

POST _snapshot/es_backup/snapshot_1/_restore
{
  "indices":"index1",
  "rename_pattern": "index(.+)",
  "rename_replacement": "restored_index_$1"
}

说明: 更多快照和恢复命令请参见快照备份与恢复命令

步骤六:查看快照恢复结果

参见步骤四:在阿里云ES上创建相同仓库,在Kibana控制台上执行以下命令,查看恢复结果。

  • 查看恢复的索引

    GET /_cat/indices?v
    

    在这里插入图片描述

  • 查看恢复的索引数据

    GET /index1/_search
    

    执行成功后,返回结果如下。

    {
      "took" : 2,
      "timed_out" : false,
      "_shards" : {
        "total" : 5,
        "successful" : 5,
        "skipped" : 0,
        "failed" : 0
      },
      "hits" : {
        "total" : 1,
        "max_score" : 1.0,
        "hits" : [
          {
            "_index" : "index1",
            "_type" : "_doc",
            "_id" : "1",
            "_score" : 1.0,
            "_source" : {
              "productName" : "testpro",
              "annual_rate" : "3.22%",
              "describe" : "testpro"
            }
          }
        ]
      }
    }
    

相关活动

更多折扣活动,请访问阿里云 Elasticsearch 官网

阿里云 Elasticsearch 商业通用版,1核2G ,SSD 20G首月免费
阿里云 Logstash 2核4G首月免费

image.png
image.png

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
189 14
|
3月前
|
存储 监控 调度
阿里云对象存储OSS之间进行数据转移教程
讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移,包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作
|
4月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
166 4
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
151 0
|
4月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
297 3
|
4月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
2月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
141 14
|
1月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
2月前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
108 1
|
2月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
210 1

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版
  • 下一篇
    oss云网关配置