【行业应用】阿里云实时计算 Flink 版在运维领域解决方案

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

行业挑战

互联网时代,社交网络、电子商务与移动通信将人类社会带入 PB 级别以上的结构与非结构信息并存的大数据时代。数据量的爆发性增长,使企业 IT 架构不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂。而大数据的 4V 特征,数据量大(Volume)、 类型繁多(Variety) 、价值密度低(Value)、时效高(Velocity) 也使得传统的技术架构和路线难以高效地处理如此海量的数据。可以说,大数据时代对企业的数据驾驭能力提出了新的挑战。尤其是大数据平台往往支撑着公司的搜索、推荐、广告等核心业务,为了保障良好的用户体验和业务效果,运维工作显得十分艰巨。相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

Gartner 在 2016 年第一次提出 AIOps 概念时,AI 代表了 Algorithmic(算法),算法的基石正是海量的数据,在 2017 年将 AI 含义改为 Artificial Intelligence(人工智能)后,同样需要海量的数据进行处理和学习。我们从下文的 Gartner 描绘的 AIOps 平台架构中同样能看到数据对于 AIOps、对于运维、对于监控的重要性。

image.png

智能运维的基础建立在大规模数据分析和计算之上,当数据量很小时,甚至可以人工判断和决策,而一旦数据量达到一定规模,大数据涉及的所有技术就都会成为智能运维所依赖的技术。一方面,可以说智能运维是一种新型技术, 因为它从另一个视角去看待运维,对传统运维进行了创新和升华; 另一方面,也可以说智能运维是一种经典技术,它是一系列成熟技术的结合体, 融入了运维、大数据、机器学习、深度学习等方方面面的技术。在大数据时代,需要从如下领域做好运维平台的建设:

  1. 基础设施平台化,大数据的 4V 特性,相比于传统的系统运维,数据的处理框架变得更为多样化和复杂化,比如多源异构海量数据的分布式存储、离线批处理、高性能索引、大规模流数据处理,以及可视化监控与报警平台等。
  2. 集群管理自动化,降低运维复杂度。自动化能够提升稳定性,将固化的操作交给机器去做,可以降低人为操作失误,提高线上的稳定性; 自动化还能极大地提高效率,将运维人员从日常烦琐的操作中解放出来,把更多的时间投入到运维平台的迭代优化上,从而更好地为业务服务。
  3. 运维决策智能化,充分利用大数据分析技术提升预测、发现和自动检测的能力,实现智能预警,自动修复,动态伸缩集群,最大化利用资源的能力,减少用户成本,提高系统的稳定性。

解决方案

image.png

实时数据收集

在实时数据收集层中,具体包括大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取、配置信息收集和第三方相关数据接入。其中:

  1. 大数据平台各服务的日志数据由各服务(如 HDFS、HBase 等)按照设计的标准格式进行收集,然后汇总上报到 DataHub/Kafka 的日志 Topic 中。
  2. 服务及主机的指标数据通过命令获取、日志数据提取、调用服务接口三种方式获取后上报到 DataHub/Kafka 中对应的原始数据 Topic 中。
  3. 配置信息通过人工收集后直接入 MySQL 的配置表中,并在系统页面上提供对配置信息的增删改查。
  4. 第三方相关数据由第三方系统提供,通过 HTTP 加载方式上报到 DataHub/Kafka 中对应的 Topic。

实时数据接入&计算

在实时数据接入&计算层,对于 DataHub/Kafka 中的实时指标 Topic 中的服务数据,由 Flink 的服务指标计算任务消费后经过计算存储到 HBase/OTS 的指标表中;同时对于 DataHub/Kafka 中的实时指标 Topic 中的数据按照分钟级、小时级、天级依次进行汇聚后返回到 DataHub/Kafka 中对应的分钟级 Topic、小时级 Topic、天级 Topic 中,最后将各个 Topic 存储到 ES 对应的 Index 中,供上层数据展示检索查询使用;同时部分数据还根据业务需要归档到 EMR 离线计算集群或者 MaxCompute 之中,进行离线深度分析、数据备份提供数据来源。

方案优势

  • 系统具有高可靠性和高实时性,且不会对底层服务造成影响。本系统底层数据的收集和上层页面展示是独立的两个部分,底层数据不断收集、处理、存储以供上层页面展示使用,上层页面展示直接从存储的 HBase/OTS 和 ES 中获取数据,当大量用户访问时不会对底层服务造成影响。
  • 系统支持对大数据平台历史数据的查询。本监控系统在服务在线业务告警,同时归档部分数据到离线大数据系统,所以使得本系统可以支持对大数据平台历史数据的查询,同时支持根据时间区间来动态的展示分钟级、小时级、天级等不同粒度的历史数据。
  • 系统支持实时监控告警。本监控系统在底层数据收集上来后,对原始数据进行解析增加了告警计算后将告警信息持久化并实时的向预留的责任人联系方式发送短信或者邮件。

成功案例

阿里云

阿里云计算平台体系承载着阿里巴巴集团几乎全部的数据存储以及计算能力,如服务器规模上 10W+ 的大数据离线计算平台(MaxCompute),以及支撑阿里双 11 晚会现场交易大屏每秒处理 25 亿条实时日志,作业运行接近上万台物理机上的实时计算平台。

随着数据规模的不断扩大,业务需求日益增长,大数据平台及大数据应用业务飞速发展,围绕阿里大数据平台和应用的稳定性、成本、效率及安全有了更大的挑战及更高的要求。阿里云大数据运维团队基于阿里云计算平台现有的基础设施构建出完整的全域大数据运维体系,为最终实现 AIOps 服务。

image.png

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
19天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
303 0
|
29天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110814 100
阿里云实时计算Flink的产品化思考与实践【下】
|
10天前
|
人工智能 Serverless 数据处理
利用阿里云函数计算实现 Serverless 架构的应用
阿里云函数计算是事件驱动的Serverless服务,免服务器管理,自动扩展资源。它降低了基础设施成本,提高了开发效率,支持Web应用、数据处理、AI和定时任务等多种场景。通过实例展示了如何用Python实现图片压缩应用,通过OSS触发函数自动执行。阿里云函数计算在云计算时代助力企业实现快速迭代和高效运营。
46 0
|
14天前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
37 0
|
15天前
|
云安全 数据采集 安全
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
阿里云提供两种关键安全产品:Web应用防火墙和云防火墙。Web应用防火墙专注网站安全,防护Web攻击、CC攻击和Bot防御,具备流量管理、大数据防御能力和简易部署。云防火墙是SaaS化的网络边界防护,管理南北向和东西向流量,提供访问控制、入侵防御和流量可视化。两者结合可实现全面的网络和应用安全。
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
|
25天前
|
消息中间件 Kubernetes Kafka
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
Terraform阿里云创建资源1分钟创建集群一键发布应用Terraform 创建 Kubernetes 集群
18 0
|
1月前
|
弹性计算 人工智能 物联网
挖掘阿里云ECS的潜力:创意应用和未来可能性
在云厂商中,我觉得开发者更信赖阿里云的云产品,而且随着阿里云最近宣布云产品降价的消息,会有更多的开发者和企业选择阿里云的云产品。这里拿阿里云的云服务器来做说明,阿里云的云服务器ECS为用户提供了强大的计算资源和灵活的扩展性,使其成为搭建各种有趣和创意应用的理想平台。除了已知的小游戏、小程序和个人网盘等应用案例之外,本文还会进一步探讨ECS在特定场景下的实践经验,并挖掘其在其他领域的潜力,为大家带来更多创意和启发。
557 3
挖掘阿里云ECS的潜力:创意应用和未来可能性
|
1月前
|
缓存 运维 监控
应用研发平台EMAS 常见问题之用华为的推送界面阿里云收不到如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
382 2
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
482 5
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1355 1
官宣|Apache Flink 1.19 发布公告

相关产品

  • 实时计算 Flink版