大数据对网络运维意味着什么?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

2016年对于SDN来说无疑是利好的一年,在金融、电信、互联网等行业SDN产品和解决方案开始规模化部署,许多传统行业对于SDN的需求也初现端倪。《2016~2017年中国SDN市场发展状况白皮书》显示,2016年中国SDN软件市场(主要指SDN控制器及相关的软件解决方案与服务)规模达到了7.2亿元,比2015年增长30.9%,预计到2021年,市场规模将达到46.7亿元。同时,白皮书也指出了企业传统网络架构面临的四大难题。

  • 难以满足业务灵活部署的需求
  • 难以满足业务资源整合的需求
  • 难以满足场景化的需求
  • 难以满足新的运维需求

在讨论运维难题的时候,分析师认为传统运维方式无法对整个网络的流量、设备以及业务实现集中管控、统一编排。造成这个问题的原因除了网络架构的变迁,不容忽视的一点是,现在网络中的数据量实在是太大了。软件技术的发展支撑了更多智能设备的接入。今天我们不断地从各种源头搜集和存储网络交易、社交媒体动态、移动设备以及各类不知道名字的自动化传感器产生的数据。

在这种情况下,爆炸式增长的数据的存储和计算需求促使存储硬件、网络基础设施以及处理海量数据的计算方法不断改进。传统运维从只对网络基础设施和流量进行简单管理到突然增加对业务和复杂流量进行管理必然力不从心。

Data is useless until you use it to make decisions

2017年初,思科斥资37亿美元收购了AppDynamics,这是继14亿美元收购物Jasper的又一大动作。媒体视之为思科战略转型的标志,在笔者看来,思科是在布局其大数据生态。

大数据面临的挑战不仅仅是数据的大小,更是如何用新的方法从各类数据平台处理数据。跟传统的商业智能(BI)相比,大数据分析能为企业网络管理带来质的改变,其价值也更大。

大数据对网络运维意味着什么?

追根溯源的能力

现代企业网络中每秒有百万级的数据包在传输,当需要进行troubleshooting的时候,有太多的地方要去检查,按照传统的方法,即便是5分钟的数据也需要几个小时甚至几天来分析处理。倘若多数情况下的问题不是网络的问题,应用程序的代码本身也应该和网包、网流一起被拿来分析。网络管理需要弄清楚不同数据类型之间的区别。一些现有的解决方案在客户可承受的价格范围只能存储三天的流量数据,对于时间更久远的网络故障,溯源只能水中捞月。

防微杜渐的能力

变化是现在IT系统的主题,已经改变的信息并没有什么意义,相反,预测有意义的变化十分具有挑战。有时受限于网络流量的大小和带宽,一些大数据分析行为可能会引起正常业务的中断。以电商网站的大促活动为例,预演的效果并不能涵盖全部可能真实的场景。一个优秀的架构师通常能预见到现在的架构有什么潜在问题。而如今,能发现这些潜在问题的手段,多依赖大数据分析。

洞悉未来的能力

大多数传统的网络系统缺乏灵活的设计,在面对现在复杂的网络环境时无法应对。传统网络中简陋的网络监控设备无力应对复杂的虚拟化网络,更遑论从中提取出可执行的规则;而基于探测和代理技术的监控系统也无法完全覆盖underlay和overlay的网络。将所有的数据汇聚在一起利用大数据技术进行分析是企业网络团队必须首先解决的难题,因为其他的大数据分析应用已经为业务部门创造了新的商机。

企业IT团队已经实现了更快速的故障排查,通过对大数据分析技术的利用,改进网络基础设施的安全性、稳定性和可用性。未来的网络该怎么设计?也许大数据分析能带给人们一些启示。

网络运维的问题其实是大数据的问题

SDN的本质是控制与转发分离,从这个角度来看,控制的核心思想是网络中有了“大脑”,通过这个智能系统对网络设备下发指令,那么这些指令又来自哪里呢?通常我们认为,这些指令来自控制器基于已有的协议、规则对网络流量和网络行为的“审判”。而这个“审判”的过程,我们称之为大数据分析。数据分析并非新生事物,在这里,我们加了个“大”字。

任何大数据分析的应用最重要的基础环节便是采集和存储。关于采集,业界已经有过较多的讨论,本文不再赘述。笔者想从以下几个方面简单概述一下大数据分析面临的问题。

大数据对网络运维意味着什么?

灵活扩展的存储能力

在上一篇《直面数据中心网络六大需求,六步打造面向未来的网络》文章中笔者提过,思科网络报告白皮书显示2015~2020年全球网络流量年复合增长率达到22%(注:2015年全球网络流量为72EB,2016年这一数字为88EB,1EB=1,000PB)截至2020年全球网络流量将会净增长200EB。对如此规模的流量进行采集和分析的需求必然要求较强的存储能力。

考虑到22%的增量,存储系统必须在不丧失性能的前提下具有高度的灵活和可扩展性,以便不停机弹性扩容。文件系统还必须支持诸如同时处理不同类型和来源数据的能力、把海量大数据转换成元数据的功能等等。在笔者看来,网络的问题首先是大数据存储的问题。在规划和设计存储系统的时候,应该考虑所有当下的情况以及未来的使用场景。

延时的问题

2015年前后的一段时间,IT圈很流行实时流数据处理技术;后来笔者了解到大量的公有云服务商在自己的基础设施中使用加速卡/智能卡。比如,微软通过使用FPGA技术的智能网卡提高了Azure的性能,微软的FPGA智能网卡还有加密和加速存储协议的功能。大数据分析在一些场景如社交媒体、交易数据等需要实时处理以便作出决策,这要求不能出现响应延时或者数据丢失。对需要根据实时数据作出响应决策的应用来说,这个要求会更高。

跨平台接入

随着大数据应用在各种平台和系统(尤其是物联网)上,对数据的交叉使用成为一种常规需求。公有云服务商在帮助大型客户进行数据迁移的时候遇到过较多此类案例,存储系统必须能够同时处理来自不同系统、不同格式的异构数据。数据时代的大数据生态必然要求软、硬件尽可能的兼容、统一。IDC近年来一直致力于通过采用标准服务器来优化网络和摆脱厂商绑定;世界上最先进的数据中心如谷歌、微软、领英、Facebook等都在向着这个方向发展。

安全的问题

安全是云计算的基石,之所以这么说源自数据对于我们的重要性。比如,最近大家热议的某公有云厂商租户隔离的问题;多数人认为VPC是目前成熟的、可行的租户安全解决方案,这也是多数云厂商产品化的方向。事实上层出不穷的安全事件都是针对数据的窃取或破坏。由于数据交叉使用,现有的IT系统安全机制需要作出较大调整,而存储也需要在不牺牲性能和可扩展性的前提下,满足对这些数据处理的安全要求。

成本的问题

大数据意味着高成本,对数据分析来说,计算资源显然没有存储资源的开销大。有人认为采用开放标准硬件能节省大量的成本(约30%~80%不等)。曾经轰轰烈烈的去IOE和政府倡导的国产化,在节约成本方面无疑有很多值得称道的地方。随着OpenStack的遍地开花,开源存储技术也获得了长足的发展。企业选择不使用市面上现有的商用存储方案,对数据去重、压缩备份,用自己定制化的存储硬件等措施,可以显著降低成本。

总结一下,大数据的价值已经得到普遍的认可,看一下自动化之于网络运维的效果我们相信,未来是令人振奋的,但更深层次的价值有待业界进一步发掘;通过研究不难发现,网络运维的问题其实是大数据的问题,而大数据分析本身尚处在初级阶段,有较多亟需解决的难题。那么,在这条路上我们该怎么走?


原文发布时间为:2017年3月2日

本文作者:云杉网络 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
97 2
|
4天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
41 13
|
2天前
|
SQL 运维 安全
网络安全等级保护2.0 定级、评测、实施与运维-复习题目资料
本文详细总结了网络信息安全等级保护的练习题,包括单选题、多选题、判断题和简答题。供朋友们参考复习,学习相关领域知识参考。
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
27天前
|
分布式计算 运维 API
针对MaxCompute经典网络域名下线,Dataphin应对策略的公告
针对MaxCompute经典网络域名下线,Dataphin应对策略的公告
239 7
|
4月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
80 0
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
121 10
|
2月前
|
运维 监控 网络安全
Python 在网络运维方面的自动化应用实例
Python 在网络运维方面的自动化应用实例
67 4
|
2月前
|
运维 网络安全 数据安全/隐私保护
2024高校网络安全管理运维赛题目--复现+题目+wp
2024高校网络安全管理运维赛题目--复现+题目+wp
68 2
|
4月前
|
运维 安全 应用服务中间件
自动化运维的利器:Ansible入门与实战网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【8月更文挑战第30天】在当今快速发展的IT时代,自动化运维已成为提升效率、减少错误的关键。本文将介绍Ansible,一种流行的自动化运维工具,通过简单易懂的语言和实际案例,带领读者从零开始掌握Ansible的使用。我们将一起探索如何利用Ansible简化日常的运维任务,实现快速部署和管理服务器,以及如何处理常见问题。无论你是运维新手还是希望提高工作效率的资深人士,这篇文章都将为你开启自动化运维的新篇章。

热门文章

最新文章