【阿里云MVP第五期】安畅网络韩军辉:ELK在数据中心流量分析中的应用

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 本文节选自阿里云MVP第五期嘉宾上海安畅运维专家韩军辉分享话题《ELK在运维工作中应用两三事》。从实际应用的角度,分享了ELK在混合云数据中心场景下流量收集、分析、存储、展现、告警中的实践。

嘉宾介绍

韩军辉 上海安畅运维专家
热衷于开源技术的学习和研究,从事多年的ELK运维相关工作,对ELK Stack有深入研究,对ELK相关运维有丰富的经验。

数据中心流量分析的挑战

早期的时候安畅网络是做IDC的,当时我们有13个数据中心和两个公共云的节点,出口带宽大概在200G左右。

_

我们当时面临的困难是告警信息无法给出明确的攻击情况。我们只能是收到DDOS告警,然后通知机房现场,或者是运维工程师来手动的用抓包分析。这样以来,定位时间不可控,如果DDOS直接把机房的流量打死,或者机房直接瘫痪,这对客户的业务影响是不可估量的。所以当时我们就想能不能当DDOS攻击来临的时候,直接快速的分析出是哪个IP被攻击了,来源IP是什么,这样直接可以指到黑洞或者封堵,比较大的时候通知运营商进行封堵,这样可以减少最小的影响范围。

基于ELK的流量分析技术架构

每个数据中心核心或者路由器配置SFlow收集数据,然后经过sflowtool这个工具进入logstash。输出分为离线和在线两路。在线部分输入ES集群,最后经过Kibana展示。离线部分输出到kafka集群,然后进入Spark Streaming计算,通过算法生成告警。

_

流量全景分析和告警

下面是其中一个数据中心的流量全景图。

_

这边大家可以看到,就是这个电信入口,它TOP10的客户,而且后面可能是没有展现出来,它可以带到比较高的流量IP,可以跟电信入口或者联通入口,当DDOS攻击来的时候肯定是某个IP破坏量特别的高,而且从ES搜索路径是可以看到是哪个IP被攻击了,来源IP是什么。这个是我们当时根据我们公司自己业务从流量分析里面抓出来我们自己属于我们公司业务自己内部的一些流量,最上面的是我们这个流量的趋势图,还有下面的协议分布,或者是我们公司业务哪一些地区访问的最多,还能进行高德地图判断出这个流量客户的热点图等。

_

DDOS告警大屏

DDOS攻击来的时候,我们是通过FLOW数据发送到Logstash然后再进ES。如果这个数据只用来展示的话是不够用的,我们想做一个告警。数据从FLOW发过以后,然后进入Logstash,最后再进入kafka消息队列,最后再进入大数据计算平台,通过一定的算法来判断。比如说长沙有一个数据中心,哪一个客户,哪一个IP被攻击了都可以显示出来的。

_

关键配置

核心交换机的主要配置,如下图所示。上面有一个Agent Address,用于标识哪一个数据中心的IP,过滤的时候就可以知道是哪一个IP。然后下面Collector里面有两个Address,一个是进入ES的,另一个是进入kafka的。

_

接下来配置端口,最主要的配置是Flow Rate,这个比率大概是256或者8192都是可以的,具体值取决于交换机。这里采取512比率,也就是每512个包抓取一个包。当然这个值小的话,交换机压力会比较大,而且进入ES的数据量也会倍增。下面部分这个是IP地址和客户的关系表。这个关系表是我们从CRM系统导入Logstash的,大概是2个小时同步一次。

_

配置logstash的input插件,通过UDP端口,从sflowtoot抓出每个数据中心的数据。进入logstash后,通过grok插件来结构化需要分析的数据。同时使用了两个translate插件,用来分析协议和转换数据格式。

_

_

阿里云MVP介绍

阿里云最有价值专家,简称 MVP(Most Valuable Professional),是专注于帮助他人充分了解和使用阿里云技术的意见领袖。点击了解更多产品信息
阿里云 MVP Meetup 第5期活动视频回顾。点击观看

加入钉钉技术讨论群

dingQR

阿里云Elasticsearch已正式发布啦,Elastic开源官方联合开发,集成5.5商业版本XPack功能,欢迎开通使用。
点击了解更多产品信息

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
15天前
|
存储 安全 物联网
浅析Kismet:无线网络监测与分析工具
Kismet是一款开源的无线网络监测和入侵检测系统(IDS),支持Wi-Fi、Bluetooth、ZigBee等协议,具备被动监听、实时数据分析、地理定位等功能。广泛应用于安全审计、网络优化和频谱管理。本文介绍其安装配置、基本操作及高级应用技巧,帮助用户掌握这一强大的无线网络安全工具。
44 9
浅析Kismet:无线网络监测与分析工具
|
6天前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
29天前
|
Kubernetes 安全 Devops
有效抵御网络应用及API威胁,聊聊F5 BIG-IP Next Web应用防火墙
有效抵御网络应用及API威胁,聊聊F5 BIG-IP Next Web应用防火墙
63 10
有效抵御网络应用及API威胁,聊聊F5 BIG-IP Next Web应用防火墙
|
7天前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
114 8
|
12天前
|
运维 供应链 安全
阿里云先知安全沙龙(武汉站) - 网络空间安全中的红蓝对抗实践
网络空间安全中的红蓝对抗场景通过模拟真实的攻防演练,帮助国家关键基础设施单位提升安全水平。具体案例包括快递单位、航空公司、一线城市及智能汽车品牌等,在演练中发现潜在攻击路径,有效识别和防范风险,确保系统稳定运行。演练涵盖情报收集、无差别攻击、针对性打击、稳固据点、横向渗透和控制目标等关键步骤,全面提升防护能力。
|
9天前
|
数据采集 JavaScript 前端开发
异步请求在TypeScript网络爬虫中的应用
异步请求在TypeScript网络爬虫中的应用
|
18天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
94 13
|
14天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
|
1月前
|
云安全 人工智能 安全
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术在现代数据中心管理中的实际应用,分析了其带来的效率提升、成本节约及潜在风险。通过具体案例,阐述了智能监控、自动化故障排查、容量规划等关键功能如何助力企业实现高效稳定的IT环境。同时,文章也指出了实施过程中面临的数据隐私、技术整合及人才短缺等挑战,并提出了相应的解决策略。 --- ####
52 1

热门文章

最新文章