【行业应用】阿里云实时计算 Flink 版在运维领域解决方案

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

行业挑战

互联网时代,社交网络、电子商务与移动通信将人类社会带入 PB 级别以上的结构与非结构信息并存的大数据时代。数据量的爆发性增长,使企业 IT 架构不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂。而大数据的 4V 特征,数据量大(Volume)、 类型繁多(Variety) 、价值密度低(Value)、时效高(Velocity) 也使得传统的技术架构和路线难以高效地处理如此海量的数据。可以说,大数据时代对企业的数据驾驭能力提出了新的挑战。尤其是大数据平台往往支撑着公司的搜索、推荐、广告等核心业务,为了保障良好的用户体验和业务效果,运维工作显得十分艰巨。相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。

Gartner 在 2016 年第一次提出 AIOps 概念时,AI 代表了 Algorithmic(算法),算法的基石正是海量的数据,在 2017 年将 AI 含义改为 Artificial Intelligence(人工智能)后,同样需要海量的数据进行处理和学习。我们从下文的 Gartner 描绘的 AIOps 平台架构中同样能看到数据对于 AIOps、对于运维、对于监控的重要性。

image.png

智能运维的基础建立在大规模数据分析和计算之上,当数据量很小时,甚至可以人工判断和决策,而一旦数据量达到一定规模,大数据涉及的所有技术就都会成为智能运维所依赖的技术。一方面,可以说智能运维是一种新型技术, 因为它从另一个视角去看待运维,对传统运维进行了创新和升华; 另一方面,也可以说智能运维是一种经典技术,它是一系列成熟技术的结合体, 融入了运维、大数据、机器学习、深度学习等方方面面的技术。在大数据时代,需要从如下领域做好运维平台的建设:

  1. 基础设施平台化,大数据的 4V 特性,相比于传统的系统运维,数据的处理框架变得更为多样化和复杂化,比如多源异构海量数据的分布式存储、离线批处理、高性能索引、大规模流数据处理,以及可视化监控与报警平台等。
  2. 集群管理自动化,降低运维复杂度。自动化能够提升稳定性,将固化的操作交给机器去做,可以降低人为操作失误,提高线上的稳定性; 自动化还能极大地提高效率,将运维人员从日常烦琐的操作中解放出来,把更多的时间投入到运维平台的迭代优化上,从而更好地为业务服务。
  3. 运维决策智能化,充分利用大数据分析技术提升预测、发现和自动检测的能力,实现智能预警,自动修复,动态伸缩集群,最大化利用资源的能力,减少用户成本,提高系统的稳定性。

解决方案

image.png

实时数据收集

在实时数据收集层中,具体包括大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取、配置信息收集和第三方相关数据接入。其中:

  1. 大数据平台各服务的日志数据由各服务(如 HDFS、HBase 等)按照设计的标准格式进行收集,然后汇总上报到 DataHub/Kafka 的日志 Topic 中。
  2. 服务及主机的指标数据通过命令获取、日志数据提取、调用服务接口三种方式获取后上报到 DataHub/Kafka 中对应的原始数据 Topic 中。
  3. 配置信息通过人工收集后直接入 MySQL 的配置表中,并在系统页面上提供对配置信息的增删改查。
  4. 第三方相关数据由第三方系统提供,通过 HTTP 加载方式上报到 DataHub/Kafka 中对应的 Topic。

实时数据接入&计算

在实时数据接入&计算层,对于 DataHub/Kafka 中的实时指标 Topic 中的服务数据,由 Flink 的服务指标计算任务消费后经过计算存储到 HBase/OTS 的指标表中;同时对于 DataHub/Kafka 中的实时指标 Topic 中的数据按照分钟级、小时级、天级依次进行汇聚后返回到 DataHub/Kafka 中对应的分钟级 Topic、小时级 Topic、天级 Topic 中,最后将各个 Topic 存储到 ES 对应的 Index 中,供上层数据展示检索查询使用;同时部分数据还根据业务需要归档到 EMR 离线计算集群或者 MaxCompute 之中,进行离线深度分析、数据备份提供数据来源。

方案优势

  • 系统具有高可靠性和高实时性,且不会对底层服务造成影响。本系统底层数据的收集和上层页面展示是独立的两个部分,底层数据不断收集、处理、存储以供上层页面展示使用,上层页面展示直接从存储的 HBase/OTS 和 ES 中获取数据,当大量用户访问时不会对底层服务造成影响。
  • 系统支持对大数据平台历史数据的查询。本监控系统在服务在线业务告警,同时归档部分数据到离线大数据系统,所以使得本系统可以支持对大数据平台历史数据的查询,同时支持根据时间区间来动态的展示分钟级、小时级、天级等不同粒度的历史数据。
  • 系统支持实时监控告警。本监控系统在底层数据收集上来后,对原始数据进行解析增加了告警计算后将告警信息持久化并实时的向预留的责任人联系方式发送短信或者邮件。

成功案例

阿里云

阿里云计算平台体系承载着阿里巴巴集团几乎全部的数据存储以及计算能力,如服务器规模上 10W+ 的大数据离线计算平台(MaxCompute),以及支撑阿里双 11 晚会现场交易大屏每秒处理 25 亿条实时日志,作业运行接近上万台物理机上的实时计算平台。

随着数据规模的不断扩大,业务需求日益增长,大数据平台及大数据应用业务飞速发展,围绕阿里大数据平台和应用的稳定性、成本、效率及安全有了更大的挑战及更高的要求。阿里云大数据运维团队基于阿里云计算平台现有的基础设施构建出完整的全域大数据运维体系,为最终实现 AIOps 服务。

image.png

实时计算 Flink 版产品交流群

test

阿里云实时计算Flink - 解决方案:
https://developer.aliyun.com/article/765097
阿里云实时计算Flink - 场景案例:
https://ververica.cn/corporate-practice
阿里云实时计算Flink - 产品详情页:
https://www.aliyun.com/product/bigdata/product/sc

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3天前
|
运维 应用服务中间件 Linux
自动化运维的利器:Ansible在配置管理中的应用
【10月更文挑战第39天】本文旨在通过深入浅出的方式,向读者展示如何利用Ansible这一强大的自动化工具来优化日常的运维工作。我们将从基础概念讲起,逐步深入到实战操作,不仅涵盖Ansible的核心功能,还会分享一些高级技巧和最佳实践。无论你是初学者还是有经验的运维人员,这篇文章都会为你提供有价值的信息,帮助你提升工作效率。
|
15天前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
678 10
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
7天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
5天前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
27 6
|
5天前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
6天前
|
运维 Ubuntu 应用服务中间件
自动化运维工具Ansible的实战应用
【10月更文挑战第36天】在现代IT基础设施管理中,自动化运维已成为提升效率、减少人为错误的关键手段。本文通过介绍Ansible这一流行的自动化工具,旨在揭示其在简化日常运维任务中的实际应用价值。文章将围绕Ansible的核心概念、安装配置以及具体使用案例展开,帮助读者构建起自动化运维的初步认识,并激发对更深入内容的学习兴趣。
26 4
|
5天前
|
运维 安全 应用服务中间件
自动化运维的利剑:Ansible在配置管理中的应用
【10月更文挑战第37天】本文将深入探讨如何利用Ansible简化和自动化复杂的IT基础设施管理任务。我们将通过实际案例,展示如何用Ansible编写可重用的配置代码,以及这些代码如何帮助运维团队提高效率和减少人为错误。文章还将讨论如何构建Ansible playbook来自动部署应用、管理系统更新和执行常规维护任务。准备好深入了解这个强大的工具,让你的运维工作更加轻松吧!
19 2
|
11天前
|
数据采集 机器学习/深度学习 运维
智能化运维在现代IT系统中的应用与挑战####
【10月更文挑战第29天】 本文探讨了智能化运维(AIOps)在现代IT系统中的重要作用及其面临的主要挑战。通过引入机器学习和大数据分析,智能化运维能显著提高系统稳定性、降低运营成本,并增强故障预测能力。然而,数据质量、技术整合及安全性等问题仍是其广泛应用的主要障碍。本文详细分析了这些挑战,并提出了相应的解决方案和未来发展趋势。 ####
35 5
|
12天前
|
SQL 运维 数据可视化
阿里云实时计算Flink版产品体验测评
阿里云实时计算Flink基于Apache Flink构建,提供一站式实时大数据分析平台,支持端到端亚秒级实时数据分析,适用于实时大屏、实时报表、实时ETL和风控监测等场景,具备高性价比、开发效率、运维管理和企业安全等优势。
|
13天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
38 4

相关产品

  • 实时计算 Flink版