黯灭_邓彬
2018-07-25
1232浏览量
在2018年Elastic Meetup 南京交流会中,来自云利来科技的涂海波为现场的听众带来了题为《南京云利来基于ELK的大数据平台》的精彩分享。在本次分享中,他首先进行了公司简介,然后介绍了数据分类,包括数据采集及数据类型等;然后重点阐述了运维之路,最后进行了告警分析。
阿里云Elasticsearch 1核2G首月免费试用,开始云上实践吧
直播视频请点击
PPT下载请点击
以下内容根据现场分享整理而成。
南京云利来有限公司主要专注于以下三个方面:实时网络使用分析,具备世界领先20Gbps分析能力;为数据中心搭建大数据分析平台,数据中心主要是给运维团队、安全团队和开发团队做跨部门协作;提供智能运维、网络安全和预警分析能力。产品主要应用的行业包括电商、政府、证券等。
数据采集主要分为网络类和日志类。网络类主要为旁路部署,用小盒子部署在机房内不同的点,包括出口入口。日志类主要包括Nagios (filebeat)和Zabbix (mysqlexporter)。
每天数据量至少2TB,记录数22亿,不含副本;高峰数据量每秒6万条记录;单个索引最快处理12万条记录每秒。
主要有三个使用场景:查询聚合;大屏分析,预测告警;网络指标,业务指标安全指标。
网络业务安全是基于一些不同的团队,定制个性化的指标,进行一些对比分析。
在使用ELK的整个过程中,我们使用过Vmware、Docker,跟美国的第三方公司的一些合作。我们自己用的最多的是单节点单实例和单节点双实例。基本是用于功能测试小公司一些测试部署。
我们做的冷热分离,开始采用的是flashcache模式,每台物理机上面都配备了一个SSD的小盘,主要是为了抵消传统的机械式硬盘寻到的一个LPS。LPS比较慢,延迟比较高,所以分布式集群每一块都配备一个小盘。在这种模式下,磁盘IO连续小块读,负载高,IOwait高,分析发现存在抖动。采用单机双实例冷热分离模式,充分利用1.6TB的SSD,只保存每天的热数据,隔夜迁移到HDD Raid0。
升级的主要目的有两个:内存隔离,当天和历史JAVA对象分离在不同的JVM里;IO隔离,当天和历史数据的磁盘IO分离在不同的磁盘上。
重要选型首先从cpu介绍,我们推荐使用Xeon E5-2600 V4系列。官方测试显示,它比V3系列提升JAVA性能60%,我们进行了一些设置,包括指令预取,cache line预取,Numa Set。结合双路cpu,它的内存和节点有一个就近读取的原则。我们根据单个机器的实例进行cpu的绑定。设置以后可以提高cpu的命中率,减少内存的切换。
在内存方面,每台物理机配备的是128TB,SSD是1.6TB,HDD是40TB~48TB。具有大内存的特点,我们还进行了Cache加速,写负载高的时候上SSD,定期做Trim优化,利用SSD,SAS和SATA盘分级存储。
OS file system用的最多的是xfs。针对HDD、SSD 4k对齐优化,确保每个分区的start Address能被8整除,解决跨扇区访问,减少读写次数和延迟。
Shard和Replica个数是基于测试的经验,可以作为参考,还基于负载、性能等。节点数设置为1.5。Shard size 控制在30GB以内,Shard docs 控制在5百万记录以内,Replica至少为1。
监控这里用了一些工具。Netdata用来做一些系统资源的升级, _cat api是官方自带的,Cerebro是用的比较多的一个插件,Prometheus可以开箱即用。
用Sql语法做一些包装、抽象,告警模型基于从工作日开始的迭代、同比环比、平均值及标准差,基线学习。
我们发现问题,解决问题,需要不停的去思考。不断迭代,严苛细节,最终性能是否满足?是否可接受?这些都是需要思考的问题。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Elasticsearch 作为一个分布式、高扩展、实时的搜索与数据分析引擎,因其轻量级、稳定、可靠、快速等特性受到越来越多开发者的青睐,在搜索、日志分析、运维监控和安全分析等领域得到广泛应用。