• 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 946浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4857浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1857浏览量
  • AI助力日志中心智能化运营

    在定时故障排查中,通过模式识别和参数识别排查异常,异常并不一定就是问题,当出现没有见过的异常处理的分支日志时,系统会将获取异常分支,判断该异常是否为问题,从而将日志文本发现的问题转化为指标分析、标准的...
    文章 2018-06-23 10141浏览量
  • 日志易饶琛琳分享:AI 助力日志中心智能化运营

    在定时故障排查中,通过模式识别和参数识别排查异常,异常并不一定就是问题,当出现没有见过的异常处理的分支日志时,系统会获取异常分支,判断该异常是否为问题,从而将日志文本发现的问题转化为指标分析、标准的...
    文章 2018-09-25 2166浏览量
  • 日志系统的 AIOps 应用,及日志易智能日志中心运营之...

    当业务请求出现问题时,例如某一时间点的某一笔交易出现异常时,系统会清晰显示交易的时序图,以展现交易流经的模块、反复出现的交易,以及出现问题的交易。该系统展示更适合于类似银行业等传统行业中。通过总线传输...
    文章 2018-11-23 1757浏览量
  • 将关键性业务应用迁移至云环境前,必须弄清的五个问题

    宕机会给企业的正常业务造成严重影响,而且出现存在着令人惊讶的规律性——每天全球互联网会出现超过3000次宕机状况。另外,大多数企业其实很难在不涉及客户与内部资产的前提下,对互联网连接故障进行检测。对面向...
    文章 2017-07-06 913浏览量
  • 可用性高达五个9!支付系统高可用架构设计实战

    通常机房的出口IP都是固定的,从而被网络运营商误认为是来自这个出口IP的交易是流量攻击,最终导致A三方鉴权和支付接口同时不可用。再说一个数据库的问题,同样是因为我们的交易量突增引发的。建立序列的同事给某个...
    文章 2017-05-02 1426浏览量
  • 可用性高达五个9!支付系统高可用架构设计实战

    通常机房的出口IP都是固定的,从而被网络运营商误认为是来自这个出口IP的交易是流量攻击,最终导致A三方鉴权和支付接口同时不可用。再说一个数据库的问题,同样是因为我们的交易量突增引发的。建立序列的同事给某个...
    文章 2018-01-01 1945浏览量
  • IDC运营的大数据分析与DCIM

    设备的故障是IDC运营需要重点关注的一个问题,是否等到设备故障告警,运维人员才去关注呢?是否可以做到预测故障呢?DCIM可对故障期间的数据进行记录、整理、统计、分析,寻找故障发生的诱因和共性,探讨缩短故障...
    文章 2019-07-30 1017浏览量
  • 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    有时系统应用出现问题时业务有可能并不受其影响,例如高可用集群的异地容灾切换保证中,局部集群挂掉可能用户使用并不会出现问题,但另一角度看,可能系统任何问题都没有出现但是业务受到影响,例如运营商的骨干网...
    文章 2018-05-30 12117浏览量
  • bilibili高并发实时弹幕系统的实战之路

    模块优化的三个方面,主要考虑的问题就是,分布式系统会出现的单点问题,即当一个用户在建立链接后,如果出现故障,其余用户建立的链接不能被影响。测试是实践过程中最不可缺少的一部分,同时,测试的数据也是用来...
    文章 2017-05-02 3814浏览量
  • 分布式主动感知在智能运维中的实践

    但这样处理,下次可能还会出现同样的问题。如果将故障放到ITSM部分进行分析,就能让问题得到更根本的解决。发现故障后,通过请求管理把这件事告诉后台人员,后台人员看到请求后将故障升级为“事件”并提交给研发人员...
    文章 2019-07-09 2295浏览量
  • 如何通过AI 全面提升运维效率?选型宝分享AIOps实战...

    用户目前有5套监控系统,并且每个系统会独立的产生告警通知,当出现大规模故障时,运维人员会同时收到来自各个系统的大量告警通知,对正常的工作造成了极大困扰。针对这家企业的情况,我们为其部署了智能告警平台,...
    文章 2019-08-15 1532浏览量
  • 打造应用全栈监控:ARMS 最佳实践

    另外当接口出现问题,我们把异常的信息打印出来,告诉你这时什么样的异常最多,异常里面的参数也打印出来。另外,阿里自己做了一个JVM的内存分析,在遇到内存泄露的问题时,ARMS帮助用户可以用很小的代价分析出...
    文章 2018-05-31 1959浏览量
  • 基于大数据的智能网络分析

    提取规划阿里云网络资源,让我们及时知道有的地方资源不够,有的地方互联网质量下降,有的地方连接用户专线侧网络出现抖动等情况,及时 联系合作运营商,帮助用户解决资源质量上的问题。4.网络运营。结合BI团队的...
    文章 2018-05-05 24912浏览量
  • “移”步到位:一站式移动应用研发体系

    本文主要以互联网的应用背景开始谈起,进而阐述了已拥有APP的企业在APP的生命周期中遇见哪些问题,以及缺乏移动端研发资源的企业应该怎样做,重点分享了EMAX For Native和EMAX For Weex,最后对EMAX进行了拓展说明...
    文章 2017-12-07 2082浏览量
  • IT打工人,AI又来“抢”你的饭碗了,这次是从数据中心...

    同时系统会调查服务器过热的原因,是风扇出现故障(HVAC问题),还是物理组件出现故障(设备问题),亦或是服务器出现了过载(工作负荷问题)。AI系统还可以通过关联HVAC系统数据和环境传感器数据来了解设施目前的状态...
    文章 2020-10-29 1758浏览量
  • 云解析大学第一期:DNS安全之道

    2016年10月21日,解析运营商DynDNS被攻击,导致欧美大量使用相关DNS的网站遭遇访问问题其中包括Twitter等知名网站。系统架构 整个架构是由阿里巴巴分布在全球的清洗中心构成的,依托阿里巴巴在全球的清洗实力,我们...
    文章 2016-12-07 5789浏览量
  • 《通信技术导论(原书第5版)》——2.2 下一代数据...

    因为这个原因,企业可能从多个运营商租用互联网接入通道,并将每个运营商的接入连到大楼的不同位置以防止因同一个管道电缆被切断而造成全部网络接入的中断。另外,企业还可以租赁无线宽带连接以防止电缆故障而造成的...
    文章 2017-05-02 1225浏览量
  • 什么是分布式系统,这么讲不信你不会

    节点间通过网络连接,而不同网络运营商提供的网络的带宽、延时、丢包率又不一样。怎么保证大家齐头并进,共同完成目标,这是个不小的挑战。第二,普遍的节点故障: 虽然单个节点的故障概率较低,但节点数目达到一定...
    文章 2019-12-03 1630浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    即使是网络不通背后也有很多原因,如安全组不通,运营商网络出现故障。因此对故障的诊断并不是简单的if else的问题。2、ECS诊断能力 阿里云提供了一键开启ECS健康诊断能力,为了达到80%的目标,需要进行全面的体检...
    文章 2020-10-28 2836浏览量
  • 物联网时代的十大战略选择

    公司还可以对问题故障进行诊断,甚至进行远程修理,这降低了对服务网络的依赖。将中介的作用最小化,公司能获取到更多的收入和利润。直接向消费者宣传产品的价值,公司能加深消费者洞察,强化品牌影响力和用户忠诚...
    文章 2017-07-03 711浏览量
  • 《通信技术导论(原书第5版)》——2.7 IP用户小交换...

    (MPLS网络通过运营商专用数据网络将站点连接在一起,更多信息请参阅第5章。在中心站点回复的客户呼叫可以在数据链路上随着数据流量一起传输。站点之间IP广播和视频最重要的问题是确保站点之间的链路设计具有足够的...
    文章 2017-05-02 2477浏览量
  • 为了30分钟配送,盒马工程师都有哪些“神操作”?

    还是前面提到的业务系统一定要有产品和业务兜底方案,比如我们在和蜂鸟对接时当蜂鸟的系统如果出现问题时,我们服务端针对此种情况做了防御性编程,打开开关让蜂鸟骑手用飞鱼app进行作业,减轻对用户的影响面。...
    文章 2019-03-19 5623浏览量
  • 网络管理的六大关键趋势

    当被问及其网络中最常出现哪些类型的工作负载时,60%的EMA调查参与者认为外部公共云流量最为普遍,估计占其网络流量总量的近一半(45%)。在云饱和的情况下,网络性能监测和管理将是一项挑战,尤其是在没有必要...
    文章 2018-07-06 1623浏览量
  • 车联网上云最佳实践(二)

    随时会出现意想不到的问题,每天都是提心吊胆的。痛点6:安全防护能力弱,易受攻击 随着公司快速发展和用户规模的增长的同时,很容易被别有用心的人盯上,记得有一天下午3点左右,突然遭受到大量DDOS攻击,我们的...
    文章 2018-08-22 2591浏览量
  • 炉石传说罕见数据库事故!丢失30%数据,疑似误操作?

    所以从运营和稳定安全的角度来说,其实出现这种故障,如果增量恢复有问题,应急策略还是更倾向于回档。游戏行业相对来说还是挺激进的,很多游戏都会大规模开始部署云服务(云服务器或者RDS),如果大家用过一些云...
    文章 2017-05-15 2206浏览量
  • 如何从零搭建一个自动化运维体系

    大家想一个问题,在中国,网络环境十分复杂,运营商之间存在隔阂甚至是壁垒,导致网络不稳定,丢包和延迟的问题是怎样解决的呢?如果基于TCP传输大文件,理论上存在单个连接上带宽延时积的限制。这里我们创新的是...
    文章 2018-11-01 2217浏览量
  • IT管理进化论:若运维是眼前的苟且,运营则是诗和远方

    对DC层、IaaS层、PaaS层的资源单位成本、资源利用效率、能源单位成本、能源利用效率和人员运营效率进行分别统计和分析,并分别和IDC、IaaS云、PaaS云的外部供应市场价位水平做对照,来衡量自己的效率和效益水平。...
    文章 2017-05-02 1771浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化