【行业应用】阿里云实时计算 Flink 版在运维领域解决方案

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

行业挑战

互联网时代,社交网络、电子商务与移动通信将人类社会带入 PB 级别以上的结构与非结构信息并存的大数据时代。数据量的爆发性增长,使企业 IT 架构不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂。而大数据的 4V 特征,数据量大(Volume)、 类型繁多(Variety) 、价值密度低(Value)、时效高(Velocity) 也使得传统的技术架构和路线难以高效地处理如此海量的数据。可以说,大数据时代对企业的数据驾驭能力提出了新的挑战。尤其是大数据平台往往支撑着公司的搜索、推荐、广告等核心业务,为了保障良好的用户体验和业务效果,运维工作显得十分艰巨。相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

Gartner 在 2016 年第一次提出 AIOps 概念时,AI 代表了 Algorithmic(算法),算法的基石正是海量的数据,在 2017 年将 AI 含义改为 Artificial Intelligence(人工智能)后,同样需要海量的数据进行处理和学习。我们从下文的 Gartner 描绘的 AIOps 平台架构中同样能看到数据对于 AIOps、对于运维、对于监控的重要性。

image.png

智能运维的基础建立在大规模数据分析和计算之上,当数据量很小时,甚至可以人工判断和决策,而一旦数据量达到一定规模,大数据涉及的所有技术就都会成为智能运维所依赖的技术。一方面,可以说智能运维是一种新型技术, 因为它从另一个视角去看待运维,对传统运维进行了创新和升华; 另一方面,也可以说智能运维是一种经典技术,它是一系列成熟技术的结合体, 融入了运维、大数据、机器学习、深度学习等方方面面的技术。在大数据时代,需要从如下领域做好运维平台的建设:

  1. 基础设施平台化,大数据的 4V 特性,相比于传统的系统运维,数据的处理框架变得更为多样化和复杂化,比如多源异构海量数据的分布式存储、离线批处理、高性能索引、大规模流数据处理,以及可视化监控与报警平台等。
  2. 集群管理自动化,降低运维复杂度。自动化能够提升稳定性,将固化的操作交给机器去做,可以降低人为操作失误,提高线上的稳定性; 自动化还能极大地提高效率,将运维人员从日常烦琐的操作中解放出来,把更多的时间投入到运维平台的迭代优化上,从而更好地为业务服务。
  3. 运维决策智能化,充分利用大数据分析技术提升预测、发现和自动检测的能力,实现智能预警,自动修复,动态伸缩集群,最大化利用资源的能力,减少用户成本,提高系统的稳定性。

解决方案

image.png

实时数据收集

在实时数据收集层中,具体包括大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取、配置信息收集和第三方相关数据接入。其中:

  1. 大数据平台各服务的日志数据由各服务(如 HDFS、HBase 等)按照设计的标准格式进行收集,然后汇总上报到 DataHub/Kafka 的日志 Topic 中。
  2. 服务及主机的指标数据通过命令获取、日志数据提取、调用服务接口三种方式获取后上报到 DataHub/Kafka 中对应的原始数据 Topic 中。
  3. 配置信息通过人工收集后直接入 MySQL 的配置表中,并在系统页面上提供对配置信息的增删改查。
  4. 第三方相关数据由第三方系统提供,通过 HTTP 加载方式上报到 DataHub/Kafka 中对应的 Topic。

实时数据接入&计算

在实时数据接入&计算层,对于 DataHub/Kafka 中的实时指标 Topic 中的服务数据,由 Flink 的服务指标计算任务消费后经过计算存储到 HBase/OTS 的指标表中;同时对于 DataHub/Kafka 中的实时指标 Topic 中的数据按照分钟级、小时级、天级依次进行汇聚后返回到 DataHub/Kafka 中对应的分钟级 Topic、小时级 Topic、天级 Topic 中,最后将各个 Topic 存储到 ES 对应的 Index 中,供上层数据展示检索查询使用;同时部分数据还根据业务需要归档到 EMR 离线计算集群或者 MaxCompute 之中,进行离线深度分析、数据备份提供数据来源。

方案优势

  • 系统具有高可靠性和高实时性,且不会对底层服务造成影响。本系统底层数据的收集和上层页面展示是独立的两个部分,底层数据不断收集、处理、存储以供上层页面展示使用,上层页面展示直接从存储的 HBase/OTS 和 ES 中获取数据,当大量用户访问时不会对底层服务造成影响。
  • 系统支持对大数据平台历史数据的查询。本监控系统在服务在线业务告警,同时归档部分数据到离线大数据系统,所以使得本系统可以支持对大数据平台历史数据的查询,同时支持根据时间区间来动态的展示分钟级、小时级、天级等不同粒度的历史数据。
  • 系统支持实时监控告警。本监控系统在底层数据收集上来后,对原始数据进行解析增加了告警计算后将告警信息持久化并实时的向预留的责任人联系方式发送短信或者邮件。

成功案例

阿里云

阿里云计算平台体系承载着阿里巴巴集团几乎全部的数据存储以及计算能力,如服务器规模上 10W+ 的大数据离线计算平台(MaxCompute),以及支撑阿里双 11 晚会现场交易大屏每秒处理 25 亿条实时日志,作业运行接近上万台物理机上的实时计算平台。

随着数据规模的不断扩大,业务需求日益增长,大数据平台及大数据应用业务飞速发展,围绕阿里大数据平台和应用的稳定性、成本、效率及安全有了更大的挑战及更高的要求。阿里云大数据运维团队基于阿里云计算平台现有的基础设施构建出完整的全域大数据运维体系,为最终实现 AIOps 服务。

image.png

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
4天前
|
弹性计算 Ubuntu Linux
阿里云系统运维管理OOS一键安装宝塔面板,这个功能太牛了!
宝塔面板是实用的服务器管理工具,支持多种操作系统(如Ubuntu、CentOS等)。通过阿里云OOS可一键安装。安装前提包括ECS实例运行中且有公网,安全组需开放8888端口。安装步骤简单,进入ECS控制台选择预装应用并确认下单,完成后在控制台查看详情和登录信息。最后验证安装结果,确保能成功访问宝塔面板URL。
108 82
|
2月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1385 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
6天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
9天前
|
弹性计算 运维 监控
云资源运维难?阿里云免费工具来帮忙
阿里云推出免费运维工具——云服务诊断,帮助用户提升对云资源的运维效率、降低门槛、减轻负担。其核心功能包括「健康状态」和「诊断」。通过「健康状态」可实时查看云资源是否正常;「诊断」功能则能快速排查网络、配置、安全等问题,并提供修复建议,助您迅速恢复业务。体验评测活动火热进行中,参与即有机会赢取索尼头戴耳机、小米背包等好礼。活动链接:https://developer.aliyun.com/topic/cloud-health。
186 11
zdl
|
2月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
171 56
|
5天前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
2月前
|
SQL 运维 数据可视化
阿里云实时计算Flink版产品体验测评
阿里云实时计算Flink基于Apache Flink构建,提供一站式实时大数据分析平台,支持端到端亚秒级实时数据分析,适用于实时大屏、实时报表、实时ETL和风控监测等场景,具备高性价比、开发效率、运维管理和企业安全等优势。
|
3月前
|
运维 搜索推荐 数据安全/隐私保护
阿里云实时计算Flink版测评报告
阿里云实时计算Flink版在用户行为分析与标签画像场景中表现出色,通过实时处理电商平台用户行为数据,生成用户兴趣偏好和标签,提升推荐系统效率。该服务具备高稳定性、低延迟、高吞吐量,支持按需计费,显著降低运维成本,提高开发效率。
90 1
|
3月前
|
运维 监控 Serverless
阿里云实时计算Flink版评测报告
阿里云实时计算Flink版是一款全托管的Serverless实时流处理服务,基于Apache Flink构建,提供企业级增值功能。本文从稳定性、性能、开发运维、安全性和成本效益等方面全面评测该产品,展示其在实时数据处理中的卓越表现和高投资回报率。
|
3月前
|
存储 运维 监控
实时计算Flink版在稳定性、性能、开发运维、安全能力等等跟其他引擎及自建Flink集群比较。
实时计算Flink版在稳定性、性能、开发运维和安全能力等方面表现出色。其自研的高性能状态存储引擎GeminiStateBackend显著提升了作业稳定性,状态管理优化使性能提升40%以上。核心性能较开源Flink提升2-3倍,资源利用率提高100%。提供一站式开发管理、自动化运维和丰富的监控告警功能,支持多语言开发和智能调优。安全方面,具备访问控制、高可用保障和全链路容错能力,确保企业级应用的安全与稳定。
55 0

相关产品

  • 实时计算 Flink版