【南京Meetup】在CloudEdge中,通过ES实践解决ElasticLog产品问题

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 摘要: 2018 Elastic Meetup南京交流会,由赵伟带来以“ElasticLog with ES in CloudEdge”为题的演讲。本文首先介绍了CloudEdge与ElasticLog是什么,其次介绍了产品的构架图以及ES的作用,最后介绍了ES在实践过程中需要设计Index、分配Shard、快速将Spark里数据写入ES中和数据去重。

2018 Elastic Meetup南京交流会,由赵伟带来以“ElasticLog with ES in CloudEdge”为题的演讲。本文首先介绍了CloudEdge与ElasticLog是什么,其次介绍了产品的构架图以及ES的作用,最后介绍了ES在实践过程中需要设计Index、分配Shard、快速将Spark里数据写入ES中和数据去重。本文提出的产品已经解决了一些瓶颈问题,但还有一些问题仍在路上。
阿里云Elasticsearch 1核2G首月免费试用,开始云上实践吧
直播视频回顾
以下内容根据现场分享整理而成。

CloudEdge与ElasticLog

CloudEdge

image001


CloudEdge是一款自注册、自配置、自充值的网关产品,它可以分为两部分,一部分是硬件,另一部分是盒子。CloudEdge通常部署在客户网络的进出口,所有的流量都会经过这个盒子进行安全扫描,并做相应的流量控制。
CloudEdge产品主要面临着三方面的问题,第一方面是如何快速处理、快速存储大量数据量的问题,以供用户去查询。第二方面是要满足用户想要查某个时间段的数据不需查整段数据的需求,研究人员应当怎样做。第三方面是由于产品面对的是日本客户,日本客户比较谨慎,他们追求数据一条不能丢,一条不能多的精确度,研究人员应当怎样做。

CloudEdge

CloudEdge对流量进行扫描并进行控制后,会产生大量数据,例如网络访问相关的数据等。Project ElasticLog是负责将不安全的数据进行拦截,接着将所有的数据按照一定的格式写到软件中,让用户能够看到自己所需要关注的信息。最终通过盒子产生数据,Project ElasticLog负责将不安全的数据进行拦截后,做出跟业务相关、数据相关的scalable 系统。

架构图

image003


目前此架构已经基本实现,但在部署上依旧存在一些问题。在上图的架构中,蓝色部分是数据的走向,直到数据落地,绿色部分负责数据落地后用户查询数据。在上图中,首先,Client负责将数据聚合后上传到Log receiververs上,其中Log receiververs是部署在AWS上的。其次,Log receiververs将数据上传到Kinesis stream上,其中Kinesis stream是负责托管服务的。再次,Kinesis stream将数据上传到经典的生产消费者模式区域。最后,数据传输到下游,下游中一部分负责把数据源源不断的写进ES里去,另一部分负责把数据做相应的解析后写进S3里去,其中S3是负责存储服务的。
经过以上处理后,理论上解决了问题,但实际上还需要进一步的延伸。第一,对ES里面的数据进行聚合,即数据进去是以分钟单位计算的,出来时需要聚合成小时单位;第二,将经常查询的数据放到ES里面,剩下的数据放到S3里面;第三,对放到S3内部的数据进行查询,目前对放到S3内部的数据进行查询的方法是用AWS提供的Athena服务,并用托管的方式去搜索S3上的数据,最后提供一个ECS供用户去查询数据。

ES的作用以及现状

ES 在 ElasticLog中主要负责三件事情,第一,主要用来放一个月的热数据,即每分钟有130万条数据进入,必须提供的是秒级查询;第二,ES应建立在AWS上,需要三个专用主节点与十个数据节点,其中主节点指M4.Load,数据节点指C4.2xBug;第三,它最多需要考虑28个指标参数。
在ES服务中,WAS是首选的服务,因为WAS能够提供相对可靠的ES服务,并且是全托管的服务。它可以从一些集群的维护中解放出来,更多的集中在怎样用ES把业务实现。当ES服务达到一定临界值时,让WAS去管理ES服务。另外,在ES服务中,WAS具有区域意识、易于使用、VPC+安全组、蓝/绿部署以及监视器+自动快照等特点,例如,区域意识指可以在不同的机房将数据进行备份。

ES实践

ES的实践包括四个部分,第一部分是怎样去设计一个Index,使它能够很大程度上影响到class的走向;第二部分是Shard的分配,即在指标里面放多少个Shard是合适的;第三部分是快速的将Spark里的数据写到ES里去;第四部分是数据的去重。四个部分的详细介绍如下:

设计Index

设计Index有两种形式,第一种形式是只设计一个Index,但整个程序建立起来后许多地方都不能进行修改了,只适用于小型数据;第二种形式是按时间去分割,即分割成每周一个Index或每月一个Index,能够有效地解决数据量的问题。

image005


上图是ES实践中的一个设计案例,在这个案例的设计中需做一些考量的性能。第一,ES里面不能放两个doc,因为存放两个同名的doc需要字段类型一致,且多个doc类型已经不被支持,所以一个Index仅需存放一个doc类型即可;第二,如果客户只在乎查询结果,不考虑数据是什么,那么可以将source关掉,这样会有效地节约存储空间;第三,all的数据在做Index时能够做到将所有的数据聚合起来,如果只查找 某一段的数据则可把all关掉,这样不仅能够使空间的利用率得到有效地提升,还能使性能得到优化;第四,可以将dynamic改为strict。
在ES实践中,它是将分钟维度数据聚合成小时维度数据的,这就意味着将数据写进ES时是分钟Index,过一段时间后自动转换成小时维度Index。那么查询时它是怎样将分钟Index切换成小时Index的呢?原因是Index提供了一个aliases功能,这样数据一开始指向分钟Index,当分钟Index服务周期到了后,自动切换到小时Index,其中整个切换在数据的聚合里面去完成即可。

Shard的分配

那么在有了Index的基础上,怎样去合理的分配Shard的个数呢?另外,Shard是落在不同的集群上,又该怎样去选择合适的集群大小呢?具体介绍如下:
在设计好Index之后,进行读取数据量,并估计每周以至每分钟有多少数据量送进来。估计数据量的大小之后基本就能够确定Index有多大以及需要多少个Index,接着确定磁盘空间以及需要多少机器设备。进而算出Shard的个数,其中Shard的个数是数据节点个数的k倍,且建议每个Shard存储不得超过30GB。最后进行相应的测试、调整以及反馈,经过几轮测试后,基本就可以确定业务大概需要什么样的集群,这个集群需要多大了。

快速地将Spark里数据写到ES内

首先,通过一个Spark Streaming程序把数据源源不断地写进ES里去,接着,Spark调用ES-Hadoop库把数据写进ES当中。那么怎样快速地将Spark里的数据写到ES里去呢?除了调整一些ES参数以外,还需要将Spark进行并行计算和ES进行并行写入,使得并行task执行的个数等于集群总共拥有的vCores个数,最终两者对接实现资源的最大利用和快速地写入。

数据去重

image006


在上文讲的架构中,由于Spark在做并行运算时会把任务分到每个task里面去做,如果一个task写入ES中失败了,那么Spark在task里面就会重新写入,从而导致数据出现重复。要想将重复进到ES的数据去重,可以从使用自定义唯一ID、使用聚合来发现复制和删除文件以及做明确的查询三个方面入手。


阿里云Elasticsearch 1核2G首月免费试用,开始云上实践吧

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
前端开发
阿里云技术团队亮相 KubeCon China 2023,一键收藏大会亮点
阿里云技术团队亮相 KubeCon China 2023,一键收藏大会亮点
阿里云技术团队亮相 KubeCon China 2023,一键收藏大会亮点
|
存储 Kubernetes 监控
KubeCon China 2021 阿里云专场来了!这些首日亮点不容错过
2021 年 12 月 9 日-10日,阿里云携 10+ 技术专家正式亮相年度顶级云原生开源技术峰会 KubeCon + CloudNativeCon + Open Source Summit China 2021,并带来阿里云云原生专场,不仅汇聚行业发展方向的精彩主题演讲,在云基础设施、可观察性、存储、定制和扩展 Kubernetes、性能、服务网格、无服务器、容器运行时、CI/CD、网络等云原生与开源技术等各大专题中,从阿里云真实业务场景中走出来的云原生技术最佳实践也将一一呈现。
382 5
KubeCon China 2021 阿里云专场来了!这些首日亮点不容错过
|
Cloud Native Serverless 云计算
【阿里云ACE】阿里云 Elastic 联合meetup 杭州站成功举办
本次 Meetup 杭州站由阿里云和 Elastic 联合举办,邀请了来自滴滴、安恒信息、阿里云的资深技术专家,现场十分火热,小伙伴们都收获满满。
【阿里云ACE】阿里云 Elastic 联合meetup 杭州站成功举办
|
存储 移动开发 前端开发
SegmentFault D-Day 杭州站之移动开发专场
昨日,SegmentFault D-Day 两场开发者沙龙在北京、杭州两地同时举办。杭州站移动开发专场又是联合小伙伴 又拍云存储 进行的,四个嘉宾,完全是充实的四堂课,内容满满又不缺风趣。接下来我们回顾一下这次活动的主要内容。
154 0
SegmentFault D-Day 杭州站之移动开发专场
|
存储 消息中间件 Cloud Native
免费报名|Apache Hudi x Pulsar Meetup杭州站火爆来袭,实践干货就等你来
Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站来啦!将于 2021 年 8 月 28 日(周六) 13:30 ,在杭州召开,你准备好了吗?本次 Meetup 由 StreamNative 联合阿里云组织发起,并邀请涂鸦智能、阿里云AnalyticDB数据仓库团队、Zoom等合作伙伴共同为大家呈现,Apache Hudi 技术专家、Apache Pulsar PMC 成员、贡献者、社区技术专家汇聚一堂,共同探讨 Apache Hudi 与 Apache Pulsar 社区发展、行业实践等话题。
1920 0
免费报名|Apache Hudi x Pulsar Meetup杭州站火爆来袭,实践干货就等你来
|
Cloud Native 安全 大数据
阿里云 x Elastic 联合meetup 杭州站
本次 Meetup 杭州站由阿里云和 Elastic 联合举办,邀请来自滴滴、安恒信息、阿里云的资深技术专家探讨在搜索、安全、内核优化等方向的实践与创新,以及发布由数十位优秀技术开发者共创而成的实战指南,共同分享 Elasticsearch 技术大咖的一线经验与深度思考。
阿里云 x Elastic 联合meetup 杭州站
|
搜索推荐 云计算 开发者
活动回顾 | ES在企业中的应用与实践技术交流会在合肥成功举办!
12月19日,合肥国家大学科技园联合清博大数据、Elastic Search社区举办ES在企业中的应用与实践技术交流会,会议邀请了来自科大讯飞,软视科技,清博大数据,七牛云的专家来分享他们的ES使用心得,来自阿里云开发者社区合肥ACE的专业技术人员100余人参加了此次专题讲座。
活动回顾 | ES在企业中的应用与实践技术交流会在合肥成功举办!
|
开发者
阿里云峰会(上海)开发者大会五大分场演讲资料合辑开放下载啦!
7月24日,阿里云峰会(上海)开发者大会在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!
105903 0
|
人工智能 云栖大会
【杭州云栖大会企业应用论坛】干货持续更新中
近15位重要嘉宾在企业应用分论坛进行了精彩发言,内容涉及新技术、新产品、场景解读,没到现场的别遗憾,干货持续更新,先来第一发
1982 0
|
Kubernetes Cloud Native 架构师
阿里云智能事业群-云原生应用平台技术专家/架构师-深圳/杭州/北京
阿里云智能事业群-云原生应用平台技术专家/架构师-深圳/杭州/北京
2382 0

热门文章

最新文章