1、实战问题
老师,我想请问一下,我们有个版本是2.4.x版本的es,想把他里面的数据(数据量比较大,十几T)导入到7.10.x版本,但是升级版本,需要的变更太多,只能选择数据迁移,不知道用什么方法去迁移,老师能给一些建议吗?
死磕 Elasticsearch 知识星球 https://t.zsxq.com/1250CqALT
2、问题拆解回复
从 Elasticsearch 2.4.x 到 7.10.x 的迁移确实是一个大跨步,直接升级的确存在很多不兼容的变更。数据迁移在这种场景下是一个相对稳妥的选择。以下是一些建议:
2.1 方案1——使用Elastidump:
Elasticdump 是一个用于从一个集群导入和导出数据的工具。你可以先从2.4.x版本的ES导出数据,然后导入到7.10.x版本。
1. # 导出 2. elasticdump --input=http://source-es-cluster:9200/myindex --output=/path/to/data.json --type=data 3. 4. # 导入 5. elasticdump --input=/path/to/data.json --output=http://destination-es-cluster:9200/myindex --type=data
特别提醒球友:考虑到你的数据量很大,这可能需要一些时间,并且你可能需要分批次执行,而不是一次导出/导入所有数据。
2.2 方案二:使用 Reindex API
Elasticsearch 提供了一个Reindex API,允许你在远程的集群上重新索引。但由于版本之间的差异,你可能需要一个中间集群,例如一个6.x的Elasticsearch
先从2.4.x迁移到6.x,再从6.x迁移到7.10.x。
先试试直接 7.X 行不行吧。
2.3 方案三:Logstash
使用 Logstash 也是一个可行的选择。你可以设置 2.4.x 版本的Elasticsearch作为输入源,7.10.x 版本的Elasticsearch作为输出目标。
3、迁移特别注意事项
3.1 数据模型和映射
在迁移数据之前,检查你的数据模型和索引映射。
图片来自:https://github.com/LisaHJung
一般先迁移 Mapping,再迁移数据。这样能有效避免索引 Mapping 不一致的情况。
7.x版本对于某些数据类型和设置有所不同,你可能需要对映射进行调整。
比如:早期版本支持多type,7.X 及之后版本已不支持。如果要迁移,多个 type 数据 可以迁移到多个不同索引。
3.2 备份
在进行任何操作之前,确保你有2.4.x版本的完整备份。
虽然你不打算进行版本升级,但始终保持数据备份是一个好习惯。
3. 3 先测试小规模数据
在进行大规模迁移之前,建议你先测试一小部分数据的迁移,以确保过程是正确的,并对可能出现的问题有所了解。
如果小规模可行,再验证大规模集群数据。
3.4 考虑集群性能和容量
由于数据量很大,导入新的 7.10.x 版本时,确保你的集群有足够的容量和性能来处理数据导入的负载。
详细新版本集群规划的时候已经考虑了这一点,如果当时没有考虑数据激增情况,现在就得考虑一下。
3.5 监控
在迁移过程中,持续监控集群的性能和健康状况,确保所有事情都在预期之内进行。
3.6 特别提醒球友
迁移总是有其挑战性的,尤其是跨多个主版本。但通过结构化和步骤化的方法,你可以确保流程尽可能顺畅。
4、迁移实战反馈
4.1 可行性验证
球友反馈:老师,经过部署测试,logstash2.4.1版本可以把 es2.4.1版本的数据迁移到 7.10.2上去。
4.2 中间遇到的坑及解决方案
但是需要升级插件版本(logstash-output-elasticsearch插件版本6.2.5及以上),我们的源es版本2.4.1版本太低,所以没敢升太高,最后选择了6.3.0版本的插件。
4.3 迁移速率及耗时
由于2.4.1版本太低,没法调优,只能使用默认的配置。
- 集群配置:主机4c 16g,单个logstash迁移 482M 数据。
- 文档行数: 7189899
- 耗时: 26分钟23秒。
至此,验证完成,问题解决。
推荐阅读
更短时间更快习得更多干货!
和全球 近2000+ Elastic 爱好者一起精进!
Elasticsearch,打开数据之门,
引领你的数据之旅!