【Spark Summit East 2017】使用Spark和Elasticsearch构建数据集搜索引擎

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本讲义出自Oscar Castaneda Villagran在Spark Summit East 2017上的演讲,主要介绍了利用内置了Elasticsearch的Spark集群使得在集群中的驱动节点上运行嵌入式Elasticsearch实例成为了可能,这就为开发更为先进的应用程序奠定了基础,其中一个应用就是数据集搜索。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Oscar Castaneda Villagran在Spark Summit East 2017上的演讲,主要介绍了利用内置了Elasticsearch的Spark集群使得在集群中的驱动节点上运行嵌入式Elasticsearch实例成为了可能,这就为开发更为先进的应用程序奠定了基础,其中一个应用就是数据集搜索。


28a3113b81e1ed528d1a994998525afe76d5a9ba

b50f79ad588a10f6768a0a91802a2944b0d162cf

fe21b3175fa65e504da944823e5a8b367b03b437

e437029585e79160cccf0c0ce382f936d8f1923b

d0cf5caebeeea1a33c90a289ecc47e680f2142ce

ebcab3abf038a4cde0205d4578590cbc1d5514fc

dd7a01a4f757ee6cdcaed2801892e668a1868bd5

c8ec20363813bfb37ef152f91a323145383cbd6d

c500921b43dd64b524cd20b3212f704143d3fbab

b1d9b655c062409d5bf90c558b75524b764bd292

0910a4d643843887b24ec8d5e6d9cf523aae1113

8e53b3a6547e46b535532c4b4df32aba989f401f

5918b93ac50cd7c61cc58a075dd96989f23982d9

618477d4a6c6651b8130ad35a70ef931fb53b352

29f09acd4f6e03d07cbec03a93c2a3f9d701501f

493a4afb855bf892a6246f422082bd1088c0fa50

7740a3dd8a744f38186ecfaafb638a24f96d4db3

1df73df79e3d509e393d2a27cc3fc503cc332e63

b4310e0519612d37d623b3bbb548466731f5569a

4bd8529811c258efade1caec472a03ae73a4b8fa

4854029a9d37d0a9180e149c8736e4a000eb296a

fe99579b201c78a65cac87910d99cb7e07cadd0b

5a9372bb31ed0b7fa2cc91aacc6442069bbb9bdd

7fb275fd069c302e5a87d10c5046bc2ae3a5d305

c8fcc7c1e18f8e9a327e3c0c41a630e601c9ce7c

d71838c7773c4424ecd7e6b277adb7b26e351ae8

821720096f70e9a1ab601b451fc3fc29101f3460

14219ba7c89b0de8d3d6cb1bd417be1c7e31102c

91797d8347b232fa613413c155f40ef020457c15

e3c4c17ab69aa1ec1de981c7ed45f5f694971271

648413a2f3e34332e3e8c9ba4635cc34ccbccb30

9704af0f4a7c39a68dc5fa266d7cb54a01067a2e

de7a4700d0e7d112d621a2d4d8ed5e587a468f96

dee255d3985bd56811106a0eaa2944ecb35808fa

5f885b4114168ab375463a2d0a74a95b32758e6d

691ce8c89c55140f56c421ac694619d1ec4a430d

5f1a9b7ec9ca7e4e8233ffc8af5f15313ea80c03

b723f207ecb40aca1528ce529b2f2dad000f196b

47018a81b2aaa9234cc8f07984e8efedc13d9cd5

fb42819175eb98844157520a9a287c2d3e380bf3

d6046ae79379be6b66cc108a48f3d17b825fe7ef

e593dbfd8fa22d71e30bff50f03ef05752a9db47

9fc3816a889b06295ddbc564fe2c76221a78c96a

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
电子书阅读分享《Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)》
电子书阅读分享《Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)》
|
2月前
|
存储 运维 监控
超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南
【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。
139 6
|
2月前
|
人工智能
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
178 2
|
3月前
|
存储 缓存 自然语言处理
深度解析ElasticSearch:构建高效搜索与分析的基石
【9月更文挑战第8天】在数据爆炸的时代,如何快速、准确地从海量数据中检索出有价值的信息成为了企业面临的重要挑战。ElasticSearch,作为一款基于Lucene的开源分布式搜索和分析引擎,凭借其强大的实时搜索、分析和扩展能力,成为了众多企业的首选。本文将深入解析ElasticSearch的核心原理、架构设计及优化实践,帮助读者全面理解这一强大的工具。
232 7
|
4月前
|
消息中间件 监控 Kafka
Filebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分析系统
【8月更文挑战第13天】Filebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分析系统
230 3
|
4月前
|
机器学习/深度学习 自然语言处理 搜索推荐
构建智能搜索应用:Elasticsearch与自然语言处理的融合
【8月更文第28天】随着大数据和人工智能技术的发展,用户对搜索应用的需求已经从简单的关键词匹配转向了更加智能化、人性化的交互方式。本文将探讨如何利用Elasticsearch和自然语言处理(NLP)技术构建一个能够理解用户意图并提供精准搜索结果的智能搜索系统。
310 0
|
7月前
|
分布式计算 API Apache
Spark与Elasticsearch的集成与全文搜索
Spark与Elasticsearch的集成与全文搜索
|
7月前
|
存储 缓存 分布式计算
Spark【基础知识 02】【弹性式数据集RDDs】(部分图片来源于网络)
【2月更文挑战第13天】Spark【基础知识 02】【弹性式数据集RDDs】(部分图片来源于网络)
78 1
|
7月前
|
Java
SpringBoot中进行elasticSearch查询,使用QueryBuilders构建各类条件查询
SpringBoot中进行elasticSearch查询,使用QueryBuilders构建各类条件查询
258 0
|
7月前
|
分布式计算 大数据 数据处理
Spark RDD(弹性分布式数据集)
Spark RDD(弹性分布式数据集)