【Spark Summit EU 2016】在Spark集群中内置Elasticsearch

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,在使用ES-Hadoop进行开发的过程中,使Elasticsearch运行在Spark集群外部是一件非常繁琐的事情,为了在开发过程中更好地Elasticsearch实例,并且尽可能地降低开发团队之间的依赖关系,使用ES快照作为团队合作的接口,并且提高QA的效率,所提提出了在Spark集群中内置Elasticsearch的方式。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,在使用ES-Hadoop进行开发的过程中,使Elasticsearch运行在Spark集群外部是一件非常繁琐的事情,为了在开发过程中更好地Elasticsearch实例,并且尽可能地降低开发团队之间的依赖关系,使用ES快照作为团队合作的接口,并且提高QA的效率,所以提出了在Spark集群中内置Elasticsearch的方式。


df541f77f980ecf2d5582e22287d09ab80e26617

f016af61314474ea89885275caea27bec55429d2

28dee895eee9c5c7c3b4d29f2ee94d6137159258

d9a19d0a13aaf8131b681f0ba69e7b6054e7335d

f6c68de54afb79607d554db481e0f753b7c6e1be

3f2082197aec4de595d38cd18e5a4545997646b5

ecb281b2968065cfabde31e85cd5a37fc6b79b4f

6b1182568c8cc7fc2bf4894b5f639ea71038153f

f05245bb53a9a3f3f810f0f2eb44b9720628e81a

e580ea867d2bca50ee4f7613e8a18d2a8c4c7cb1

bec79c9db301a05ba36bf8027f66d8674a5550c7

f6e329ded2b252522b48ffa6b6e4921c2a3eece2

26ada11cfaf50b1331303f5aded43529c4fd0f81

90155d7bd3d37912ff015b7c3489aca45564334d

2c271215a5850ead320ba44b81ddb090d3818808

5ecb08a1d3b19a3bc82d134ce5e7fc9ea99bdfb8

22303e74da86786dc899de67b83a055b10355fc5

6b8ebf4d3a15eb368e981e1ed392a557fd327d6d

cfabeac37953f9b28fb1a6c6d04e20096ac318b0

a5c79f29cb4b4246ab506519bcfcb55136cca49a

e4db9f40218f5d33b32b5f8b9d244121a3400bfa

07c81d75eb212fc3c0dc3bd0ffcab1ae6fb58d3c

807a906884874c2c3b8ddffb9e97e3c6c0551452

60ab87f3a2c9371b073d6ef184634515ec316dbd

f78c3030ec9e8189187e3dacbc9183db0035610c

add1fe03f9a3c9d56c65501006a79e8360272121

153d8f30dc2a38ad5d33d2b715e8c2d00d0ae42f

2195db75acc63b2933c6824be68d850a9ddca463

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
9天前
|
存储 缓存 监控
深入解析:Elasticsearch集群性能调优策略与最佳实践
【10月更文挑战第8天】Elasticsearch 是一个分布式的、基于 RESTful 风格的搜索和数据分析引擎,它能够快速地存储、搜索和分析大量数据。随着企业对实时数据处理需求的增长,Elasticsearch 被广泛应用于日志分析、全文搜索、安全信息和事件管理(SIEM)等领域。然而,为了确保 Elasticsearch 集群能够高效运行并满足业务需求,需要进行一系列的性能调优工作。
27 3
|
12天前
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
29 4
|
13天前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
26 0
|
13天前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
15 0
|
13天前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
24 0
|
13天前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
27 0
|
13天前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
30 0
|
13天前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
58 0
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题