阿里云ACE共创空间——大数据方案体验2 Elasticsearch

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

从阿里云的官方文档中先查看了下Elasticsearch这个产品的特点:

特点及优势

  • 分布式的实时文件存储,每个字段都被索引并可被搜索
  • 分布式的实时分析搜索引擎
  • 商业版X-pack插件,提供企业级权限管控、实时系统监控等强大服务
  • 可弹性扩展到上百台服务器规模,处理PB级结构化或非结构化数据
  • 支持IK analyzer插件
  • Elastic官方技术支持团队7*24小时技术支持

预置插件

阿里云Elasticsearch预置插件如下(包含但不完全包含):

  • IK Analyzer:IK Analyzer是一个开源的,基于java语言开发的中文分词工具包。是开源社区中处理中分分词非常热门的插件。

  • pinyin Analyzer:拼音分词器。

  • Smart Chinese Analysis Plugin:lucene默认的中文分词器。

  • ICU Analysis plugin:lucene自带的ICU分词,ICU是一套稳定、成熟、功能强大、轻便易用和跨平台支持Unicode 的开发包。

  • Japanese (Kuromoji) Analysis plugin:日文分词器。

  • Mapper Attachments Type plugin:附件类型插件,通过tika库将各种类型格式解析成字符串。


归纳下这个产品的几个特点供之后的试验中参考,这个产品最重要的特点是分布式和实时,在这个基础上可以做字段的搜索任务,搜索任务中的分词功能通过预置的插件完成的,按文档的说明目前支持中文、拼音和日文。因为实时是这个产品的重点所以对弹性的要求比较高,在之后的试验中也关注下这个弹性可以怎么配置。


进入管理控制台后首先需要创建实例,这个创建的过程和ECS非常类似,但是有个别地方还是有些区别,梳理了下整个实例创建过程如下:

1、付费方式:预付费和后付费,其中预付费方式只支持包月,和ECS不同。

2、地域和可用区的选择:按照自己的需求选择地域和可用区,不同的地域的费用可能会有不同。

3、X-Pack版本:按照文档对此产品的说明,商业版X-pack插件是提供企业级权限管控、实时系统监控等服务的插件,是本产品的核心插件,所以有两个版本可以供选择。

4、网络类型:只支持专用网络,也就是经典网络的架构方式是不支持的。既然是VPC下就需要选择虚拟交换机。

5、在实例挂载的数据盘选择上大部分的地域都能够选择云盘型和本地SATA盘型,仅有部分区域支持本地SSD盘。

6、实例的规格上有很多种可以选择,性能从低到高,但是目前1核2G规格的实例不提供售后保障,只能支持测试,不建议用于生产。

7、在实例的选择上可以选择专有主节点和协调节点来满足弹性需求,并且专有主节点和协调节点的实例规格可以不一样。

8、在存储方面只能选择云盘存储的方式,默认是SSD云盘,也可以选择高效云盘,根据IOPS可能的实际情况来进行选择。

9、按量付费的计算方式是按照小时来进行收费,收费根据地域、实例规格、存储、协调节点的数量而有差异。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
23天前
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
23天前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
19天前
|
存储 机器学习/深度学习 人工智能
Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名
本文介绍了如何将阿里云 AI 功能与 Elasticsearch 集成,以提高语义搜索的相关性。
232 0
|
19天前
|
存储 分布式计算 运维
课时6:阿里云MaxCompute:轻松玩转大数据
阿里云MaxCompute是全新的大数据计算服务,提供快速、完全托管的PB级数据仓库解决方案。它拥有高效的压缩存储技术、强大的计算能力和丰富的用户接口,支持SQL查询、机器学习等高级分析。MaxCompute兼容多种计算模型,开箱即用,具备金融级安全性和灵活的数据授权功能,帮助企业节省成本并提升效率。
|
23天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
|
23天前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
|
23天前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
2月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
264 92
|
20天前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
|
3天前
|
传感器 机器学习/深度学习 人工智能
数据让农业更聪明——用大数据激活田间地头
数据让农业更聪明——用大数据激活田间地头
19 2