实战问题:Elasticsearch 2.X 数据如何迁移到 7.X?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 实战问题:Elasticsearch 2.X 数据如何迁移到 7.X?

1、实战问题

老师,我想请问一下,我们有个版本是2.4.x版本的es,想把他里面的数据(数据量比较大,十几T)导入到7.10.x版本,但是升级版本,需要的变更太多,只能选择数据迁移,不知道用什么方法去迁移,老师能给一些建议吗?

死磕 Elasticsearch 知识星球 https://t.zsxq.com/1250CqALT

2、问题拆解回复

从 Elasticsearch 2.4.x 到 7.10.x 的迁移确实是一个大跨步,直接升级的确存在很多不兼容的变更。数据迁移在这种场景下是一个相对稳妥的选择。以下是一些建议:

2.1 方案1——使用Elastidump:

Elasticdump 是一个用于从一个集群导入和导出数据的工具。你可以先从2.4.x版本的ES导出数据,然后导入到7.10.x版本。

1. # 导出
2. elasticdump --input=http://source-es-cluster:9200/myindex --output=/path/to/data.json --type=data
3. 
4. # 导入
5. elasticdump --input=/path/to/data.json --output=http://destination-es-cluster:9200/myindex --type=data

特别提醒球友:考虑到你的数据量很大,这可能需要一些时间,并且你可能需要分批次执行,而不是一次导出/导入所有数据。

2.2 方案二:使用 Reindex API

Elasticsearch 提供了一个Reindex API,允许你在远程的集群上重新索引。但由于版本之间的差异,你可能需要一个中间集群,例如一个6.x的Elasticsearch

先从2.4.x迁移到6.x,再从6.x迁移到7.10.x。

先试试直接 7.X 行不行吧。

2.3 方案三:Logstash

使用 Logstash 也是一个可行的选择。你可以设置 2.4.x 版本的Elasticsearch作为输入源,7.10.x 版本的Elasticsearch作为输出目标。

3、迁移特别注意事项

3.1 数据模型和映射

在迁移数据之前,检查你的数据模型和索引映射。

图片来自:https://github.com/LisaHJung

一般先迁移 Mapping,再迁移数据。这样能有效避免索引 Mapping 不一致的情况。

7.x版本对于某些数据类型和设置有所不同,你可能需要对映射进行调整。

比如:早期版本支持多type,7.X 及之后版本已不支持。如果要迁移,多个 type 数据 可以迁移到多个不同索引。

3.2 备份

在进行任何操作之前,确保你有2.4.x版本的完整备份

虽然你不打算进行版本升级,但始终保持数据备份是一个好习惯。

3. 3 先测试小规模数据

在进行大规模迁移之前,建议你先测试一小部分数据的迁移,以确保过程是正确的,并对可能出现的问题有所了解。

如果小规模可行,再验证大规模集群数据。

3.4 考虑集群性能和容量

由于数据量很大,导入新的 7.10.x 版本时,确保你的集群有足够的容量和性能来处理数据导入的负载。

详细新版本集群规划的时候已经考虑了这一点,如果当时没有考虑数据激增情况,现在就得考虑一下。

3.5 监控

在迁移过程中,持续监控集群的性能和健康状况,确保所有事情都在预期之内进行。

3.6 特别提醒球友

迁移总是有其挑战性的,尤其是跨多个主版本。但通过结构化和步骤化的方法,你可以确保流程尽可能顺畅。

4、迁移实战反馈

4.1 可行性验证

球友反馈:老师,经过部署测试,logstash2.4.1版本可以把 es2.4.1版本的数据迁移到 7.10.2上去。

4.2 中间遇到的坑及解决方案

但是需要升级插件版本(logstash-output-elasticsearch插件版本6.2.5及以上),我们的源es版本2.4.1版本太低,所以没敢升太高,最后选择了6.3.0版本的插件。

4.3 迁移速率及耗时

由于2.4.1版本太低,没法调优,只能使用默认的配置。

  • 集群配置:主机4c 16g,单个logstash迁移 482M 数据。
  • 文档行数: 7189899
  • 耗时: 26分钟23秒。

至此,验证完成,问题解决。

推荐阅读


更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

Elasticsearch,打开数据之门,

引领你的数据之旅


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
3月前
|
Web App开发 JavaScript Java
elasticsearch学习五:springboot整合 rest 操作elasticsearch的 实际案例操作,编写搜索的前后端,爬取京东数据到elasticsearch中。
这篇文章是关于如何使用Spring Boot整合Elasticsearch,并通过REST客户端操作Elasticsearch,实现一个简单的搜索前后端,以及如何爬取京东数据到Elasticsearch的案例教程。
250 0
elasticsearch学习五:springboot整合 rest 操作elasticsearch的 实际案例操作,编写搜索的前后端,爬取京东数据到elasticsearch中。
|
3月前
|
消息中间件 监控 关系型数据库
MySQL数据实时同步到Elasticsearch:技术深度解析与实践分享
在当今的数据驱动时代,实时数据同步成为许多应用系统的核心需求之一。MySQL作为关系型数据库的代表,以其强大的事务处理能力和数据完整性保障,广泛应用于各种业务场景中。然而,随着数据量的增长和查询复杂度的提升,单一依赖MySQL进行高效的数据检索和分析变得日益困难。这时,Elasticsearch(简称ES)以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。本文将深入探讨MySQL数据实时同步到Elasticsearch的技术实现与最佳实践。
222 0
|
5月前
|
存储 缓存 监控
|
5月前
|
自然语言处理 索引
ElasticSearch 实现分词全文检索 - 测试数据准备
ElasticSearch 实现分词全文检索 - 测试数据准备
61 1
|
5月前
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
237 5
|
6月前
|
存储 数据采集 数据处理
数据处理神器Elasticsearch_Pipeline:原理、配置与实战指南
数据处理神器Elasticsearch_Pipeline:原理、配置与实战指南
225 12
|
6月前
|
存储 安全 文件存储
【elasticsearch】es6重启服务后数据消失,es6如何配置数据持久化储存
【elasticsearch】es6重启服务后数据消失,es6如何配置数据持久化储存
75 1
|
7月前
|
索引
利用滚动索引来管理海量Elasticsearch数据
利用滚动索引来管理海量Elasticsearch数据
140 3
|
6月前
|
Java
Java 实现 Elasticsearch 查询全部数据
【7月更文挑战第7天】Java 实现 Elasticsearch 查询全部数据
|
7月前
|
缓存 数据处理 数据安全/隐私保护
Elasticsearch索引状态管理实战指南
Elasticsearch索引状态管理实战指南