【行业应用】阿里云实时计算 Flink 版在运维领域解决方案

简介: 相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

行业挑战

互联网时代,社交网络、电子商务与移动通信将人类社会带入 PB 级别以上的结构与非结构信息并存的大数据时代。数据量的爆发性增长,使企业 IT 架构不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂。而大数据的 4V 特征,数据量大(Volume)、 类型繁多(Variety) 、价值密度低(Value)、时效高(Velocity) 也使得传统的技术架构和路线难以高效地处理如此海量的数据。可以说,大数据时代对企业的数据驾驭能力提出了新的挑战。尤其是大数据平台往往支撑着公司的搜索、推荐、广告等核心业务,为了保障良好的用户体验和业务效果,运维工作显得十分艰巨。相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

Gartner 在 2016 年第一次提出 AIOps 概念时,AI 代表了 Algorithmic(算法),算法的基石正是海量的数据,在 2017 年将 AI 含义改为 Artificial Intelligence(人工智能)后,同样需要海量的数据进行处理和学习。我们从下文的 Gartner 描绘的 AIOps 平台架构中同样能看到数据对于 AIOps、对于运维、对于监控的重要性。

image.png

智能运维的基础建立在大规模数据分析和计算之上,当数据量很小时,甚至可以人工判断和决策,而一旦数据量达到一定规模,大数据涉及的所有技术就都会成为智能运维所依赖的技术。一方面,可以说智能运维是一种新型技术, 因为它从另一个视角去看待运维,对传统运维进行了创新和升华; 另一方面,也可以说智能运维是一种经典技术,它是一系列成熟技术的结合体, 融入了运维、大数据、机器学习、深度学习等方方面面的技术。在大数据时代,需要从如下领域做好运维平台的建设:

  1. 基础设施平台化,大数据的 4V 特性,相比于传统的系统运维,数据的处理框架变得更为多样化和复杂化,比如多源异构海量数据的分布式存储、离线批处理、高性能索引、大规模流数据处理,以及可视化监控与报警平台等。
  2. 集群管理自动化,降低运维复杂度。自动化能够提升稳定性,将固化的操作交给机器去做,可以降低人为操作失误,提高线上的稳定性; 自动化还能极大地提高效率,将运维人员从日常烦琐的操作中解放出来,把更多的时间投入到运维平台的迭代优化上,从而更好地为业务服务。
  3. 运维决策智能化,充分利用大数据分析技术提升预测、发现和自动检测的能力,实现智能预警,自动修复,动态伸缩集群,最大化利用资源的能力,减少用户成本,提高系统的稳定性。

解决方案

image.png

实时数据收集

在实时数据收集层中,具体包括大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取、配置信息收集和第三方相关数据接入。其中:

  1. 大数据平台各服务的日志数据由各服务(如 HDFS、HBase 等)按照设计的标准格式进行收集,然后汇总上报到 DataHub/Kafka 的日志 Topic 中。
  2. 服务及主机的指标数据通过命令获取、日志数据提取、调用服务接口三种方式获取后上报到 DataHub/Kafka 中对应的原始数据 Topic 中。
  3. 配置信息通过人工收集后直接入 MySQL 的配置表中,并在系统页面上提供对配置信息的增删改查。
  4. 第三方相关数据由第三方系统提供,通过 HTTP 加载方式上报到 DataHub/Kafka 中对应的 Topic。

实时数据接入&计算

在实时数据接入&计算层,对于 DataHub/Kafka 中的实时指标 Topic 中的服务数据,由 Flink 的服务指标计算任务消费后经过计算存储到 HBase/OTS 的指标表中;同时对于 DataHub/Kafka 中的实时指标 Topic 中的数据按照分钟级、小时级、天级依次进行汇聚后返回到 DataHub/Kafka 中对应的分钟级 Topic、小时级 Topic、天级 Topic 中,最后将各个 Topic 存储到 ES 对应的 Index 中,供上层数据展示检索查询使用;同时部分数据还根据业务需要归档到 EMR 离线计算集群或者 MaxCompute 之中,进行离线深度分析、数据备份提供数据来源。

方案优势

  • 系统具有高可靠性和高实时性,且不会对底层服务造成影响。本系统底层数据的收集和上层页面展示是独立的两个部分,底层数据不断收集、处理、存储以供上层页面展示使用,上层页面展示直接从存储的 HBase/OTS 和 ES 中获取数据,当大量用户访问时不会对底层服务造成影响。
  • 系统支持对大数据平台历史数据的查询。本监控系统在服务在线业务告警,同时归档部分数据到离线大数据系统,所以使得本系统可以支持对大数据平台历史数据的查询,同时支持根据时间区间来动态的展示分钟级、小时级、天级等不同粒度的历史数据。
  • 系统支持实时监控告警。本监控系统在底层数据收集上来后,对原始数据进行解析增加了告警计算后将告警信息持久化并实时的向预留的责任人联系方式发送短信或者邮件。

成功案例

阿里云

阿里云计算平台体系承载着阿里巴巴集团几乎全部的数据存储以及计算能力,如服务器规模上 10W+ 的大数据离线计算平台(MaxCompute),以及支撑阿里双 11 晚会现场交易大屏每秒处理 25 亿条实时日志,作业运行接近上万台物理机上的实时计算平台。

随着数据规模的不断扩大,业务需求日益增长,大数据平台及大数据应用业务飞速发展,围绕阿里大数据平台和应用的稳定性、成本、效率及安全有了更大的挑战及更高的要求。阿里云大数据运维团队基于阿里云计算平台现有的基础设施构建出完整的全域大数据运维体系,为最终实现 AIOps 服务。

image.png

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
8月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
1442 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
8月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
614 0
|
9月前
|
机器学习/深度学习 人工智能 运维
智能运维加速交付:应用上线别再慢吞吞
智能运维加速交付:应用上线别再慢吞吞
259 2
|
9月前
|
运维 Kubernetes 测试技术
应用多、交付快,研发运维怎么管?看云效+SAE 如何一站式破局
通过在云效中创建 SAE 服务连接并关联集群,团队可将应用环境直接部署到 SAE,实现从代码提交、镜像构建到 SAE 部署的自动化流水线。该集成打通了研发与运维的壁垒,特别适用于应用数量多、团队规模大、交付节奏快的组织,助力企业实现敏捷、可靠的持续交付。
|
运维 Kubernetes 前端开发
传统企业如何玩转平台工程?2 个运维靠它管 50 + 应用
做了五年运维,最深刻的感悟是:技术自负是效率的天敌。以前总觉得懂 Kubectl 命令才专业,直到被平台工程打脸,真正的专业不是炫技,而是让复杂技术为业务服务。现在我常跟新人说:能让开发和厂商爽的运维,才是好运维,而 Rainbond,就是那个让所有人都爽的神器。
传统企业如何玩转平台工程?2 个运维靠它管 50 + 应用
|
10月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
887 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
|
11月前
|
运维 监控 应用服务中间件
运维打铁: Ruby 脚本在运维自动化中的应用探索
Ruby 是一种简洁、动态类型的编程语言,适合运维自动化任务。本文介绍了其在服务器配置管理、定时任务执行和日志分析处理中的应用,并提供了代码示例,展示了 Ruby 在运维自动化中的实际价值。
538 2
|
10月前
|
运维 数据可视化 vr&ar
AR远程协作在发电领域的运维应用方案
发电厂面临设备故障频发、运维人员经验不足、远程支持困难及维护成本高昂等挑战。为提升运维效率与设备可靠性,越来越多电厂开始采用增强现实(AR)远程协作技术。通过AR设备,现场人员可与远程专家实时协作,实现快速故障诊断与修复、可视化操作指导和精准培训支持。AR技术不仅缩短停机时间,降低运维成本,还提升了应急响应能力与决策效率,助力发电行业向智能化、高效化方向发展。
|
10月前
|
人工智能 运维 监控
云+应用一体化可观测:破局“云上困境”,让运维驱动业务增长
当云计算迈入深入上云新阶段,数智化升级的关键课题已从“简单上云”演进至“精细治云”。随着企业对云计算的依赖日益加深,如何高效管理云端资源及其稳定性成为新的挑战。为此,阿里云推出云+应用一体化可观测方案,通过阿里云应用运维平台(Application Operation Platform,简称“AOP”)构建覆盖应用全生命周期一体化可观测产品体系,推动运维模式由被动响应向主动预防转变,实现故障的快速发现、定界与恢复,保障云上业务稳定运行。 目前,该方案已成功服务超过50家行业头部客户,为政务云平台、金融核心系统、能源调度中枢等关键基础设施提供全天候安全运维保障。
780 0

相关产品

  • 实时计算 Flink版