当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 转自haixiaElasticsearch on MaxCompute Elasticsearch 是目前最流行的开源分布式搜索系统之一,它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Log

转自haixia

Elasticsearch on MaxCompute(原ODPS) 

Elasticsearch 是目前最流行的开源分布式搜索系统之一,它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Logstash + Kibana + Beats) 正逐渐成为企业和个人进行数据收集、搜索、分析、可视化的首选解决方案。

作为一个分布式系统,Elasticsearch 在部署使用时会面临一些运维方面的问题:如扩容缩容、failover、集群运维和管理等。对于这些问题,ODPS 已经有了成熟、稳定的解决方案,而 Elasticsearch 的搜索功能一直是 ODPS 的短板——存储在 ODPS 表里的数据难以进行高效的全文检索,但是越来越多的 ODPS 用户对数据提出了搜索需求。

所以,我们把 Elasticsearch 和 ODPS 结合起来——让 Elasticsearch 运行在 ODPS 集群上,通过 ODPS 统一调度和管理,并且打通 ODPS 表数据到 Elasticsearch 的通道,利用 Elasticsearch 满足用户的搜索需求。(PS:本产品目前只对专有云输出,公共云暂不提供服务)

实现简介

1. Elasticsearch —— ODPS long running job

Elasticsearch on ODPS 整体架构如下图所示 (橙色部分是 ODPS,绿色部分是 Elasticsearch):

screenshot

在 ODPS 上,一个 Elasticsearch 集群对应一个 ODPS 的 long running 作业。用户通过提交 ODPS 作业启动 Elasticsearch 集群,作业提交成功后会返回相应 instanceID;客户端提供调整 Elasticsearch 集群的接口,用户可以根据 instanceID 请求扩容、缩容和停止 Elasticsearch 集群。其中:

  • ODPS 控制集群负责启动和停止 Elasticsearch 的 long running 作业,以及将客户端的 RPC 请求转发到相应的 App Master 上。
  • App Master 是管理 Elasticsearch 集群的核心组件,负责向 Fuxi 申请资源、拉起 Elasticsearch 节点、监控节点运行状态并处理 failover 的情况,同时还要响应客户端通过控制集群转发的 RPC 请求,返回 Elasticsearch 集群的运行状态信息或对集群进行相应调整。
  • worker 负责拉起 Elasticsearch 进程,并向 App Master 汇报运行状态
  • Elasticsearch 启动成功后即可通过 Nodeclient 提供服务,用户通过 RESTful API 或 Elasticsearch SDK 使用 Elasticsearch 的相关功能

2. 数据打通

Logstash 是 Elasticsearch 最常用的数据导入工具,使用灵活,有很好的插件化支持。我们开发了 ODPS-Logstash 插件,用户进行简单的配置,就可以把 ODPS 表作为 Elasticsearch 的数据源,使用 Logstash 把数据导入到 Elasticsearch 集群中。Elasticsearch 即可建立索引并提供搜索服务。

现状和展望

ODPS 给 Elasticsearch 带来了真正的“开箱即用”,Elasticsearch 填补了 ODPS 在搜索上的不足。目前 Elasticsearch on ODPS 正在内测使用中,后续会有更多的使用经验交流,大家对这个项目有任何的建议欢迎随时和我联系。Elasticsearch 和 ODPS 究竟能擦出怎样的火花?我们拭目以待。


欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:

96e17df884ab556dc002c912fa736ef6558cbb51
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
5月前
|
JavaScript 大数据 Python
原生大数据|elasticSearch|低版本kibana组件的汉化
原生大数据|elasticSearch|低版本kibana组件的汉化
54 0
|
5月前
|
消息中间件 分布式计算 大数据
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
215 0
|
5月前
|
安全 大数据 Java
elasticsearch|大数据|低版本的elasticsearch集群的官方安全插件x-pack的详解
elasticsearch|大数据|低版本的elasticsearch集群的官方安全插件x-pack的详解
118 0
|
5月前
|
安全 大数据 API
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
247 0
|
2月前
|
SQL JSON 大数据
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
这篇文章是Elasticsearch的进阶使用指南,涵盖了Search API的两种检索方式、Query DSL的基本语法和多种查询示例,包括全文检索、短语匹配、多字段匹配、复合查询、结果过滤、聚合操作以及Mapping的概念和操作,还讨论了Elasticsearch 7.x和8.x版本中type概念的变更和数据迁移的方法。
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
|
2月前
|
存储 分布式计算 数据可视化
大数据概念与术语简介
大数据概念与术语简介
67 2
|
3月前
|
运维 监控 Java
在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。
【7月更文挑战第1天】在大数据场景下,Elasticsearch作为分布式搜索与分析引擎,因其扩展性和易用性成为全文检索首选。本文讲解如何在Java中集成Elasticsearch,包括安装配置、使用RestHighLevelClient连接、创建索引和文档操作,以及全文检索查询。此外,还涉及高级查询、性能优化和故障排查,帮助开发者高效处理非结构化数据。
58 0
|
5月前
|
消息中间件 分布式计算 大数据
大数据组件之storm简介
大数据组件之storm简介
122 2
|
5月前
|
存储 大数据 虚拟化
【云计算与大数据技术】虚拟化简介及虚拟化的分类讲解(图文解释 超详细)
【云计算与大数据技术】虚拟化简介及虚拟化的分类讲解(图文解释 超详细)
528 0
|
5月前
|
监控 大数据 数据处理
大数据组件之Storm简介
【5月更文挑战第2天】Apache Storm是用于实时大数据处理的分布式系统,提供容错和高可用的实时计算。核心概念包括Topology(由Spouts和Bolts构成的DAG)、Spouts(数据源)和Bolts(数据处理器)。Storm通过acker机制确保数据完整性。常见问题包括数据丢失、性能瓶颈和容错理解不足。避免这些问题的方法包括深入学习架构、监控日志、性能调优和编写健壮逻辑。示例展示了实现单词计数的简单Topology。进阶话题涵盖数据延迟、倾斜的处理,以及Trident状态管理和高级实践,强调调试、性能优化和数据安全性。
155 4

相关产品

  • 云原生大数据计算服务 MaxCompute