大数据对网络运维意味着什么?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

2016年对于SDN来说无疑是利好的一年,在金融、电信、互联网等行业SDN产品和解决方案开始规模化部署,许多传统行业对于SDN的需求也初现端倪。《2016~2017年中国SDN市场发展状况白皮书》显示,2016年中国SDN软件市场(主要指SDN控制器及相关的软件解决方案与服务)规模达到了7.2亿元,比2015年增长30.9%,预计到2021年,市场规模将达到46.7亿元。同时,白皮书也指出了企业传统网络架构面临的四大难题。

  • 难以满足业务灵活部署的需求
  • 难以满足业务资源整合的需求
  • 难以满足场景化的需求
  • 难以满足新的运维需求

在讨论运维难题的时候,分析师认为传统运维方式无法对整个网络的流量、设备以及业务实现集中管控、统一编排。造成这个问题的原因除了网络架构的变迁,不容忽视的一点是,现在网络中的数据量实在是太大了。软件技术的发展支撑了更多智能设备的接入。今天我们不断地从各种源头搜集和存储网络交易、社交媒体动态、移动设备以及各类不知道名字的自动化传感器产生的数据。

在这种情况下,爆炸式增长的数据的存储和计算需求促使存储硬件、网络基础设施以及处理海量数据的计算方法不断改进。传统运维从只对网络基础设施和流量进行简单管理到突然增加对业务和复杂流量进行管理必然力不从心。

Data is useless until you use it to make decisions

2017年初,思科斥资37亿美元收购了AppDynamics,这是继14亿美元收购物Jasper的又一大动作。媒体视之为思科战略转型的标志,在笔者看来,思科是在布局其大数据生态。

大数据面临的挑战不仅仅是数据的大小,更是如何用新的方法从各类数据平台处理数据。跟传统的商业智能(BI)相比,大数据分析能为企业网络管理带来质的改变,其价值也更大。

大数据对网络运维意味着什么?

追根溯源的能力

现代企业网络中每秒有百万级的数据包在传输,当需要进行troubleshooting的时候,有太多的地方要去检查,按照传统的方法,即便是5分钟的数据也需要几个小时甚至几天来分析处理。倘若多数情况下的问题不是网络的问题,应用程序的代码本身也应该和网包、网流一起被拿来分析。网络管理需要弄清楚不同数据类型之间的区别。一些现有的解决方案在客户可承受的价格范围只能存储三天的流量数据,对于时间更久远的网络故障,溯源只能水中捞月。

防微杜渐的能力

变化是现在IT系统的主题,已经改变的信息并没有什么意义,相反,预测有意义的变化十分具有挑战。有时受限于网络流量的大小和带宽,一些大数据分析行为可能会引起正常业务的中断。以电商网站的大促活动为例,预演的效果并不能涵盖全部可能真实的场景。一个优秀的架构师通常能预见到现在的架构有什么潜在问题。而如今,能发现这些潜在问题的手段,多依赖大数据分析。

洞悉未来的能力

大多数传统的网络系统缺乏灵活的设计,在面对现在复杂的网络环境时无法应对。传统网络中简陋的网络监控设备无力应对复杂的虚拟化网络,更遑论从中提取出可执行的规则;而基于探测和代理技术的监控系统也无法完全覆盖underlay和overlay的网络。将所有的数据汇聚在一起利用大数据技术进行分析是企业网络团队必须首先解决的难题,因为其他的大数据分析应用已经为业务部门创造了新的商机。

企业IT团队已经实现了更快速的故障排查,通过对大数据分析技术的利用,改进网络基础设施的安全性、稳定性和可用性。未来的网络该怎么设计?也许大数据分析能带给人们一些启示。

网络运维的问题其实是大数据的问题

SDN的本质是控制与转发分离,从这个角度来看,控制的核心思想是网络中有了“大脑”,通过这个智能系统对网络设备下发指令,那么这些指令又来自哪里呢?通常我们认为,这些指令来自控制器基于已有的协议、规则对网络流量和网络行为的“审判”。而这个“审判”的过程,我们称之为大数据分析。数据分析并非新生事物,在这里,我们加了个“大”字。

任何大数据分析的应用最重要的基础环节便是采集和存储。关于采集,业界已经有过较多的讨论,本文不再赘述。笔者想从以下几个方面简单概述一下大数据分析面临的问题。

大数据对网络运维意味着什么?

灵活扩展的存储能力

在上一篇《直面数据中心网络六大需求,六步打造面向未来的网络》文章中笔者提过,思科网络报告白皮书显示2015~2020年全球网络流量年复合增长率达到22%(注:2015年全球网络流量为72EB,2016年这一数字为88EB,1EB=1,000PB)截至2020年全球网络流量将会净增长200EB。对如此规模的流量进行采集和分析的需求必然要求较强的存储能力。

考虑到22%的增量,存储系统必须在不丧失性能的前提下具有高度的灵活和可扩展性,以便不停机弹性扩容。文件系统还必须支持诸如同时处理不同类型和来源数据的能力、把海量大数据转换成元数据的功能等等。在笔者看来,网络的问题首先是大数据存储的问题。在规划和设计存储系统的时候,应该考虑所有当下的情况以及未来的使用场景。

延时的问题

2015年前后的一段时间,IT圈很流行实时流数据处理技术;后来笔者了解到大量的公有云服务商在自己的基础设施中使用加速卡/智能卡。比如,微软通过使用FPGA技术的智能网卡提高了Azure的性能,微软的FPGA智能网卡还有加密和加速存储协议的功能。大数据分析在一些场景如社交媒体、交易数据等需要实时处理以便作出决策,这要求不能出现响应延时或者数据丢失。对需要根据实时数据作出响应决策的应用来说,这个要求会更高。

跨平台接入

随着大数据应用在各种平台和系统(尤其是物联网)上,对数据的交叉使用成为一种常规需求。公有云服务商在帮助大型客户进行数据迁移的时候遇到过较多此类案例,存储系统必须能够同时处理来自不同系统、不同格式的异构数据。数据时代的大数据生态必然要求软、硬件尽可能的兼容、统一。IDC近年来一直致力于通过采用标准服务器来优化网络和摆脱厂商绑定;世界上最先进的数据中心如谷歌、微软、领英、Facebook等都在向着这个方向发展。

安全的问题

安全是云计算的基石,之所以这么说源自数据对于我们的重要性。比如,最近大家热议的某公有云厂商租户隔离的问题;多数人认为VPC是目前成熟的、可行的租户安全解决方案,这也是多数云厂商产品化的方向。事实上层出不穷的安全事件都是针对数据的窃取或破坏。由于数据交叉使用,现有的IT系统安全机制需要作出较大调整,而存储也需要在不牺牲性能和可扩展性的前提下,满足对这些数据处理的安全要求。

成本的问题

大数据意味着高成本,对数据分析来说,计算资源显然没有存储资源的开销大。有人认为采用开放标准硬件能节省大量的成本(约30%~80%不等)。曾经轰轰烈烈的去IOE和政府倡导的国产化,在节约成本方面无疑有很多值得称道的地方。随着OpenStack的遍地开花,开源存储技术也获得了长足的发展。企业选择不使用市面上现有的商用存储方案,对数据去重、压缩备份,用自己定制化的存储硬件等措施,可以显著降低成本。

总结一下,大数据的价值已经得到普遍的认可,看一下自动化之于网络运维的效果我们相信,未来是令人振奋的,但更深层次的价值有待业界进一步发掘;通过研究不难发现,网络运维的问题其实是大数据的问题,而大数据分析本身尚处在初级阶段,有较多亟需解决的难题。那么,在这条路上我们该怎么走?


原文发布时间为:2017年3月2日

本文作者:云杉网络 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
48 0
|
2月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18448 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
8天前
|
运维 安全 应用服务中间件
自动化运维的利器:Ansible入门与实战网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【8月更文挑战第30天】在当今快速发展的IT时代,自动化运维已成为提升效率、减少错误的关键。本文将介绍Ansible,一种流行的自动化运维工具,通过简单易懂的语言和实际案例,带领读者从零开始掌握Ansible的使用。我们将一起探索如何利用Ansible简化日常的运维任务,实现快速部署和管理服务器,以及如何处理常见问题。无论你是运维新手还是希望提高工作效率的资深人士,这篇文章都将为你开启自动化运维的新篇章。
|
18天前
|
人工智能 运维 物联网
5G技术对网络运维的影响:挑战与机遇
【8月更文挑战第20天】5G技术对网络运维产生了深远影响,既带来了复杂性和挑战,也孕育了新的机遇和发展空间。通过积极应对挑战,抓住机遇,不断推进技术创新和应用实践,我们可以更好地利用5G技术的优势,提升网络运维的智能化水平,为数字经济的发展贡献力量。
|
1月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
204 3
|
1月前
|
机器学习/深度学习 运维 算法
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
对2021高校大数据挑战赛中智能运维异常检测与趋势预测赛题的赛后总结与分析,涉及赛题解析、不足与改进,并提供了异常检测、异常预测和趋势预测的方法和模型选择的讨论。
65 0
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
|
15天前
|
运维 安全 网络安全
云端安全之盾:云计算与网络安全的协同演进运维自动化之路:从传统到现代化的转变
【8月更文挑战第23天】在数字化浪潮下,云计算以其灵活性和可扩展性成为企业数字化转型的重要推手。然而,随着云服务的快速发展,网络安全威胁也日益增多。本文将探讨云计算与网络安全如何相互促进,共同成长,以确保信息安全,并分析云服务提供商采取的安全策略以及企业在采用云服务时应注意的安全实践。
|
16天前
|
大数据 RDMA
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
25 0
|
21天前
|
运维 网络架构 Python
利用Python查询H3C网络设备示例,运维用了它,都称赞!
利用Python查询H3C网络设备示例,运维用了它,都称赞!
|
2月前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

热门文章

最新文章

下一篇
DDNS