基于大数据的智能网络分析

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2018云栖大会深圳峰会弹性计算、网络和CDN专场上,阿里云高级技术专家云州给大家一起探讨了大数据的智能网络分析。通过介绍全球网络的超大规模,进而说明了智能网络齐天的设计必要性,着重详讲解了齐天智能网络的四大分析功能特性,包括网络大盘、网络异常、网络资源和网络运营,最后对未来进行了简要规划。

2018云栖大会深圳峰会弹性计算、网络和CDN专场上,阿里云高级技术专家云州给大家一起探讨了大数据的智能网络分析。通过介绍全球网络的超大规模,进而说明了智能网络齐天的设计必要性,着重详讲解了齐天智能网络的四大分析功能特性,包括网络大盘、网络异常、网络资源和网络运营,最后对未来进行了简要规划。

数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!

直播视频回顾

以下为精彩视频内容整理:

超大规模的全球网络

目前,运行在阿里云网络上的阿里云产品已经多达上百种,并且,阿里云部署的地区已经从原来国内的几个城市和region发展到现在遍布全球多个国家和地区,阿里云网络作为最基础的设施,需要负责将所有地区的阿里云产品连接起来,还需要为这些阿里云产品提供高质量的多种互联网访问方式,让阿里云用户能够从多个地方快速高效的访问云上产品。

bebe8f121de0720af52e13368a93c51813623684

阿里云网络是基于SDN思想设计和实现的,大概分为两大部分,overlay和underlay。在overlay中,有一些我们自研的虚拟网络组件,包括SDN控制器、虚拟网关、host vswitch;underlay中有一系列的物理网络设备,包括物理路由器、物理交换机等。我们的host vswitch性能非常高,领先于业界,是我们实现东西向流量的关键,同时,虚拟化网关让云可以南北下访问,最后,虚拟关键设备是实现云上云下互动的关键。

超大规模的全球网络由数百万级网络设备、数千万级网络实例、1000+个网络指标组成,各种各样的网络产品在上面分配的IP正常运行在我们的网络上,上千个网络指标,每种指标都有自己不同的含义,不同的指标之间有不同的关系,如何管理好这样一张大网?这是非常具有挑战性的。我们想要知道任何时刻这张网络是否有异常,希望知道整张网络的运行状况,从全球的状况到每台设备、每台实例的状况,我们都想要知道。随着业务的快速发展,我们也希望了解我们的网络资源是否满足下一个月或季度的规划,资源质量如何,供应商为我们提供的互联网访问能力如何等,这些都需要我们去分析和解决。

为了解决以上问题,我们基于大数据技术,结合多年网络工作经验,设计并实现了一套数据分析系统,它可以帮助我们智能管理好这张网络。其特点是可以吞吐海量网络数据,并将这些网络数据转化成可视化的信息和决策,帮助我们诊断网络中的问题,了解网络上的运行状况,以及帮助我们规划网络中的发展方向。

数据驱动的智能网络-齐天

我们称设计的这套智能网络为齐天,寓意从天空的角度来看这张网络,从整个地球到每一台设备都可以看得清清楚楚。齐天智能网络包括以下四个部分:

1.网络大盘。了解阿里云网络运行状况,了解每个网络、每个实例的用户正在发生什么事情。

2.网络异常。多维度了解阿里云网络异常情况,实时监控阿里云网络稳定性。

3.网络资源。提取规划阿里云网络资源,让我们及时知道有的地方资源不够,有的地方互联网质量下降,有的地方连接用户专线侧网络出现抖动等情况,及时   联系合作运营商,帮助用户解决资源质量上的问题。

4.网络运营。结合BI团队的技术和经验,融合我们对网络的理解,来分析我们的网络产品、成本和用户画像,了解用户如何使用我们的产品,了解我们产品的发展情况,了解用户如何在云上部署网络应用的。

67cf2c833c72287c8ea13f5837bc1218c3e50592

齐天1.0产品架构如图所示,最底层为虚拟和物理网络生成组件,包括overlay和underlay两块,overlay和underlay组件会产生海量的网络数据,这些数据非常原始,大多以指标或日志形式推给上层,数据分析系统会实时消费这些网络数据和日志,并将这些网络数据进行清洗、聚合、加工以及多维度计算后生成语义丰富的多维度网络数据,这些网络数据随后会进入各类离线数据分析中,包括时序分析数据和Maxcompute数据分析等。经过这些分析后,我们会交给上层平台,从异常维度、资源维度、产品维度和大盘维度分别作二次分析,帮助我们从四个方向为用户提供业务,最后输出包括Web、API、流和机器人。

网络大盘

我们的网络大盘覆盖了阿里云全球所有地区,涵盖所有虚拟网络组件,覆盖所有核心指标,包括专有云和公有云,它负责将所有的网络生产组件的核心指标经过多层分析,甚至趋势图统计图和拓扑图等,我们可以了解每一个集群每一个region甚至每一个IP的流量和实时运行情况,网络大盘结合了虚拟网络和物理网络拓扑情况,当任何一个地区发生网络拓扑变化时,整套数据分析系统可以感知到它的变化,并将变化体现在数据聚合算法当中,不需要重启程序,也不需要重新提交变更,我们的网络拓扑和数据分析平台时实时连动的。

为了能够从多个角度看问题,我们把数据拆分成1分钟到1年等多个维度的数据颗粒度,这样我们就可以从多个时间跨度了解网络情况,比如过去三年,阿里云某个地区网络峰值在什么时候,什么时候发生了网络抖动等,这都需要我们拉长时间维度去分析,甚至用两三年的时间来看网络发展方向。多种颗粒度的时间序列数据帮助我们实现在不同时间维度了解我们整个网络运行状况。

网络异常

网络异常分析系统是了解阿里云整个网络稳定性的关键组件,它也是其中最复杂的组件。既要做到准确提取出异常,同时又要避免过多噪音,不要让研发和用户收到过多的报警,我们遵循以下四方面:

1.主动探测。阿里云全球部署了很多探测节点,包括overlay和underlay,并对overlay和underlay进行持续探测,一旦出现设备问题就会立刻发现并报警,管理网络人员会立即进行处理恢复。

2.指标波动。当网络出现问题时,指标异常是在所难免的,每种指标可能发生不同的异常和问题,由于一个数据分析链路非常长,从采集到数据聚合到清洗到加工,需要经过很多工序,依赖很多中间件,中间可能会存在数据链的抖动或指标毛刺。针对这些问题,我们设计实现了一套算法,即使中间链路发生抖动或产生指标毛刺,都可以过滤掉,把真正可疑的出现问题或发生故障的指标波动提取出来,作为异常暴露出来。

3.区间预测。我们与浙大合作设计并实现了一套基于机器学习的区间预测新算法,可以基于过去指标历史数据,来分析出每一种指标的流量特性,形成数据模型,基于数据模型,可以预测出接下来一段时间内该实例在哪个区间波动。随后,当我们的实际指标达到那个时间后,我们会根据实际指标的数值以及区间偏移量来评估异常分数,这个分数作为网络异常因子生成可疑的网络异常。

4.异常聚合。异常聚合不是一个算法,它是基于网络拓扑聚合异常事件,收敛异常并定位异常范围。通过所有异常结合网络拓扑以及网络链路,将所有异常收敛成一个高等级异常,这个异常会精确囊括过去一分钟哪个地方发生什么问题,影响了多少台设备和实例,影响了多少用户和多少产品,因此而使流量下跌多少,产品业务受到了多久影响。

网络资源

资源分析是我们专门用来作资源规划、资源质量分析等的组件。我们结合了当前所有产品的售卖数据和实际集群运行指标,确定资源水位,分析过去一段时间内每种指标的平均消耗速度,最快的指标什么时候会消耗完,然后预测接下来的一定时间内哪个地区集群会因此容量达到上限。

我们还做了全球资源消耗多维度统计和资源质量分析,通过对一系列的网络资源质量分析,包括阻能探测、边缘节点丢包和延时情况来了解全球所有网络资源质量情况。

此外,我们还做了资源规划,我们基于历史数据预测库存消耗,确定资源消耗量并购买资源,为接下来的业务发展作准备。

网络运营

网络运营包括以下四个方面:

1.营收分析,我们可以分析出每天收入波动原因,哪些行业和用户导致营收发生增长或变化的,这些用户是如何使用我们的产品的。

2.用户分析,对网络产品的用户画像进行分析,分析每个用户的资源使用情况。

3.实例分析,分析网络产品实例。

4.成本分析,分析网络产品成本是否符合预期。

规划和演进

未来,我们想要变得更快、更准、更智能。具体体现在以下几方面:

1.秒级监控:我们想要秒级甚至亚秒级速度分析所有指标,想要做到这一点,我们还会遇到更大量的数据冲击,比如超过现在百倍的数据吞吐量。

2.指标分类:对各类指标进行特征分类,分析相关性,帮助用户找出网络特性,告知用户购买什么样的网络产品。

3.全链路诊断:与虚拟网络和物理网络一起合作,把网络上问题直接定位出来。

4.智能调度:灵活调度网络流量,当某处业务出现问题时,实时调度流量到其它地区。

本文由云栖志愿小组毛鹤整理编辑

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
传感器 运维 物联网
蓝牙Mesh网络:连接未来的智能解决方案
蓝牙Mesh网络:连接未来的智能解决方案
260 12
|
1月前
|
存储 安全 5G
|
1月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
3月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【8月更文挑战第1天】在当今科技飞速发展的时代,AI已成为日常生活中不可或缺的一部分。神经网络作为AI的核心,通过模拟人脑中的神经元连接方式处理复杂数据模式。利用Python及其强大的库TensorFlow,我们可以轻松构建神经网络模型。示例代码展示了如何建立一个含有两层隐藏层的简单神经网络,用于分类任务。神经网络通过反向传播算法不断优化权重和偏置,从而提高预测准确性。随着技术的进步,神经网络正变得越来越深、越来越复杂,能够应对更加艰巨的挑战,推动着AI领域向前发展。
47 2
|
3月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
73 0
|
20天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
72 10
|
16天前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
37 3
|
2月前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
204 5
|
2月前
|
5G 网络安全 SDN
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
72 3
|
2月前
|
传感器 物联网 人机交互
物联网:物联网,作为新一代信息技术的重要组成部分,通过智能感知、识别技术与普适计算等通信感知技术,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现了物物相连、人物相连,开启了万物互联的新时代。
在21世纪,物联网(IoT)作为新一代信息技术的核心,正以前所未有的速度重塑生活、工作和社会结构。本文首先介绍了物联网的概念及其在各领域的广泛应用,强调其技术融合性、广泛的应用范围以及数据驱动的特点。接着,详细阐述了物联网行业的现状和发展趋势,包括政策支持、关键技术突破和应用场景深化。此外,还探讨了物联网面临的挑战与机遇,并展望了其未来在技术创新和模式创新方面的潜力。物联网行业正以其独特魅力引领科技发展潮流,有望成为推动全球经济发展的新引擎。