带你读《企业级云原生白皮书项目实战》——5.1.7 数据同步(2)

本文涉及的产品
对象存储 OSS,20GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
公网NAT网关,每月750个小时 15CU
简介: 带你读《企业级云原生白皮书项目实战》——5.1.7 数据同步(2)

《企业级云原生白皮书项目实战》——第五章 大数据——5.1 检索分析服务 Elasticsearch版——5.1.7 数据同步(1) https://developer.aliyun.com/article/1228658?groupCode=supportservice


5.1.7.2 集群间数据迁移

目前阿里云Elasticsearch支持通过Logstash、reindex和OSS等多种方式进行ES集群间数据迁移。OSS快照适合迁移速度快,源端数据量较大(GB、TB、PB级别)的场景,OSS方式是目标端ES和源端ES都需要去访问OSS的,所以在使用时需要保证目标端ES和源端ES可以访问OSS。Logstash适合数据体量不大,需要在线数据同步的场景,该方式是需要logstash可以访问目标端ES和源端ES。ReIndex适合源端数据量较小,且对迁移速度要求不高的场景,该方式是需要在目标ES集群上执行,然后从源 ES 集群导入数据到目标端ES 集群,所以需要目标端ES 集群节点可以访问源端ES集群。根据ES集群类型可以主要分为以下三种同步场景。并且每种场景的不同同步方式,都是有些限制的,相关限制可从ES集群网络架构和OSS同步方式思考原因。

5.1.7.2.1 阿里云Elasticsearch实例间数据迁移

OSS快照:OSS快照方式不支持迁移增量数据,建议在迁移前关闭源端待迁移索引的写入或更新。另外,跨集群OSS仓库设置功能,对源端和目标端实例有以下3个限制。1是源端和目标端实例必须在相同地域,2是源端和目标端实例需归属于相同账号,3是源端实例的版本低于或等于目标端实例的版本。

Logstash:需要源ES、Logstash和目标ES在同一专有网络。如果不在同一专有网络,需要通过配置NAT网关实现与公网的连通,同时源ES、Logstash和目标ES实例版本需满足兼容性要求,详细信息请参见产品兼容性。

ReIndex:要求两个Elasticsearch集群在同一网络架构下,或者目标端ES是旧网络架构,源端ES是新网络架构。

5.1.7.2.2 自建Elasticsearch迁移至阿里云

OSS快照:OSS快照方式不支持迁移增量数据,建议在迁移前关闭源端待迁移索引的写入或更新。另外,跨集群OSS仓库设置功能,对源端和目标端实例有以下3个限制。1是源端和目标端实例必须在相同地域,2是源端和目标端实例需归属于相同账号,3是源端实例的版本低于或等于目标端实例的版本。

Logstash:需要源ES、Logstash和目标ES在同一专有网络。如果不在同一专有网络,需要通过配置NAT网关实现与公网的连通,同时源ES、Logstash和目标ES实例版本需满足兼容性要求,详细信息请参见产品兼容性。

ReIndex:要求两个Elasticsearch集群在同一网络架构下,或者目标端ES是旧网络架构,源端ES是新网络架构。

5.1.7.2.2 自建Elasticsearch迁移至阿里云

OSS快照:需要获取与源Elasticsearch版本一致的elasticsearch-repository-oss插件。另外,OSS快照方式不支持迁移增量数据,建议在迁移前关闭源端待迁移索引的写入或更新。

Logstash:源ES、Logstash和目标ES在同一专有网络。如果不在同一专有网络,需要通过配置NAT网关实现与公网的连通。同时源ES、Logstash和目标ES版本需满足兼容性要求,详细信息请参见产品兼容性

ReIndex:旧网络架构ES需要和源端集群在同一VPC网络中,新网络架构ES需借助PrivateLink,打通ECS上自建Elasticsearch集群所处的网络与阿里云服务账号的网络,再使用终端节点域名进行reindex。

5.1.7.2.3 第三方Elasticsearch迁移至阿里云

OSS快照:需要将第三方的ES快照数据同步到OSS中,然后在阿里云ES上进行快照恢复。

Logstash:需要阿里云Logstash配置NAT网关实现与公网连通,源Elastic

search、Logstash和目标Elasticsearch实例版本需满足兼容性要求,详细信息请参见产品兼容性。

ReIndex:不支持。

5.1.7.3 非ES集群间数据同步

可以使用Logstash(开源Logstash/阿里云Logstash)、阿里云DataWorks、阿里云DTS、Canal等数据同步工具进行数据同步。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
9天前
|
存储 SQL 监控
|
5天前
|
存储 Cloud Native 块存储
EBS深度解析:云原生时代企业级块存储
企业上云的策略,从 Cloud-Hosting 转向 Serverless 架构。块存储作为企业应用上云的核心存储产品,将通过 Serverless 化来加速新的计算范式全面落地。在本话题中,我们将会介绍阿里云块存储企业级能力的创新,深入解析背后的技术细节,分享对未来趋势的判断。
|
9天前
|
运维 监控 安全
|
2月前
|
存储 缓存 自然语言处理
深度解析ElasticSearch:构建高效搜索与分析的基石
【9月更文挑战第8天】在数据爆炸的时代,如何快速、准确地从海量数据中检索出有价值的信息成为了企业面临的重要挑战。ElasticSearch,作为一款基于Lucene的开源分布式搜索和分析引擎,凭借其强大的实时搜索、分析和扩展能力,成为了众多企业的首选。本文将深入解析ElasticSearch的核心原理、架构设计及优化实践,帮助读者全面理解这一强大的工具。
174 7
|
4月前
|
Kubernetes Cloud Native 微服务
企业级容器部署实战:基于ACK与ALB灵活构建云原生应用架构
这篇内容概述了云原生架构的优势,特别是通过阿里云容器服务Kubernetes版(ACK)和应用负载均衡器(ALB)实现的解决方案。它强调了ACK相对于自建Kubernetes的便利性,包括优化的云服务集成、自动化管理和更强的生态系统支持。文章提供了部署云原生应用的步骤,包括一键部署和手动部署的流程,并指出手动部署更适合有技术背景的用户。作者建议在预算允许的情况下使用ACK,因为它能提供高效、便捷的管理体验。同时,文章也提出了对文档改进的建议,如添加更多技术细节和解释,以帮助用户更好地理解和实施解决方案。最后,展望了ACK未来在智能化、安全性与边缘计算等方面的潜在发展。水文一篇,太忙了,见谅!
|
4月前
|
运维 监控 Java
在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。
【7月更文挑战第1天】在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。本文讲解如何在Java中集成Elasticsearch,包括安装配置、使用RestHighLevelClient连接、创建索引和文档操作,以及全文检索查询。此外,还涉及高级查询、性能优化和故障排查,帮助开发者高效处理非结构化数据。
70 0
|
6月前
|
Kubernetes 安全 Cloud Native
Rainbond 携手 TOPIAM 打造企业级云原生身份管控新体验
TOPIAM是开源的IDaas/IAM平台,旨在统一管理企业账号、权限和认证,整合各类系统,实现单点登录。通过集中式管理,它解决传统IT架构中的安全和效率问题,加强企业安全并促进数字化转型。使用Rainbond云原生应用管理平台可轻松部署TOPIAM。TOPIAM功能包括组织信息管理、身份源集成、多种认证协议、安全审计、防暴力破解和密码策略。未来将推出更多与Rainbond的结合应用案例。
Rainbond 携手 TOPIAM 打造企业级云原生身份管控新体验
|
6月前
|
Cloud Native 关系型数据库 MySQL
实时计算 Flink版产品使用合集之是否支持云原生数据仓库AnalyticDBPostgreSQL到DORIS的实时数据同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
存储 弹性计算 Kubernetes
【阿里云云原生专栏】深入解析阿里云Kubernetes服务ACK:企业级容器编排实战
【5月更文挑战第20天】阿里云ACK是高性能的Kubernetes服务,基于开源Kubernetes并融合VPC、SLB等云资源。它提供强大的集群管理、无缝兼容Kubernetes API、弹性伸缩、安全隔离及监控日志功能。用户可通过控制台或kubectl轻松创建和部署应用,如Nginx。此外,ACK支持自动扩缩容、服务发现、负载均衡和持久化存储。多重安全保障和集成监控使其成为企业云原生环境的理想选择。
477 3
|
5月前
|
运维 Cloud Native 云计算
云原生技术在企业级应用中的应用与前景分析
随着云计算技术的快速发展,云原生技术作为一种优秀的应用架构模式,正在逐渐受到企业和开发者的关注。本文通过分析云原生技术在企业级应用中的应用情况和未来发展前景,探讨了其在加速企业数字化转型、提升应用性能和灵活性等方面的优势,以及面临的挑战和解决方案。
69 0