• 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    对某些受众来说,比起故障原因更关心这个故障的影响面,这也会实时展现,包括影响的应用及其功能点列表。三. AIOps智能运维解决方案 1. 核心功能 上述内容给大家介绍了在故障发现和原因分析中引入机器学习算法和...
    文章 2018-05-30 14184浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    整个故障定义的过程都是线上化和结构化的,当业务指标超出故障定义的范围时,故障台会自动触发故障通告,并将通告信息及时发送给相关团队的技术人员。技术人员通过故障通告快速查看业务监控数据,通过全景监控的纵向...
    文章 2021-07-06 559浏览量
  • 阿里:千亿交易背后的0故障发布

    稳定最基础的是系统的稳定,保障系统的可用,而最关键的是要保障通过系统来进行发布的应用的稳定,不会因为发布而导致服务不可用等故障出现。效率这块我们在集团内比较受好评的产品是SP2P的文件分发系统,叫做...
    文章 2018-04-20 5197浏览量
  • 如何快速处理线上故障【转】

    同时,尽早地反馈故障问题,尽早地集结各个角色,群策群力地进行排障值得提倡;这个过程中,需要有一位有‘威望’的master坐镇,主持大局;在保证有序推进的情况下,尽可能地并行地收集信息,进行尝试。这个有点分布...
    文章 2017-11-16 1661浏览量
  • 无人值守时代,运维如何保障发布质量?

    我们针对阿里的故障产生原因做了统计,其中很大一部分都是线上变更引起的,相信在座各位也会遇到或者制造过故障,开发和运维的同学对故障都是很敬畏的。故障大家都遇到过,但是故障的影响差异会比较大。有些故障可能...
    文章 2018-04-18 4241浏览量
  • 无效告警优化实践总结

    系统故障相关的时间问题通常用MTBF、MTTF、MTTR这三项指标来表示。MTTF(Mean Time To Failure&xff0c;平均无故障时间)&xff1a;指系统无故障运行的平均时间&xff0c;取所有从系统开始正常运行到发生故障之间的时间段的...
    文章 2021-11-12 199浏览量
  • 阿里云解决方案架构师张平:云原生数字化安全生产的...

    经过故障等级定义、故障分、稳定分等机制体系及运营活动的建设&xff0c;可以实现安全生产工作的可度量可考核。然后平台和体系建设需要配合相关的演练来做标准化的验收&xff0c;保证这些体系和产品能力能够有效的落地并...
    文章 2022-08-14 504浏览量
  • 双11 背后的全链路可观测:阿里巴巴鹰眼在“云原生...

    某用户反馈订单异常,业务同学首先通过该用户的 UserId 检索出下单入口的业务日志,然后根据该日志中关联的链路标识 TraceId 将下游依赖的所有业务流程、状态与事件按实际调用顺序进行排列,快速定位了订单异常的...
    文章 2019-12-20 2318浏览量
  • 云时代如何简化数据中心网络运维?

    比如某企业用户反馈,在运维中需要投入50%的工作在防火墙的规则上,主要原因是随着应用的变迁,防火墙规则没有随之变迁,造成网络沉淀和碎片。实时响应:传统网络的设计主要是面向人的界面,基于分钟级别慢速的原则...
    文章 2017-08-15 1527浏览量
  • 杨凯:大数据在制造企业中的核心应用

    利用大数据质量管理分析平台,集中得到很多精确的质量故障原因分析结果,定点解决。6、提升工艺研发质量 对新产品的研发和工艺设计,经过大数据分析,及时发现产品设计的不合理点和缺陷,及时修正,提高工艺研发的...
    文章 2017-08-18 1226浏览量
  • 天津茶叶交易中心成为美信云网管客户

    美信云网管还允许自定义告警的范围、条件、升级、相关性以及告警分组,帮助天茶交易中心的IT运维人员快速定位故障,查找故障原因。美信云网管的告警依靠策略会有效地屏蔽错报和误报,防止告警泛滥,保证告警的真实...
    文章 2017-09-26 2474浏览量
  • 杨凯:大数据在制造企业中的核心应用

    利用大数据质量管理分析平台,集中得到很多精确的质量故障原因分析结果,定点解决。6、提升工艺研发质量 对新产品的研发和工艺设计,经过大数据分析,及时发现产品设计的不合理点和缺陷,及时修正,提高工艺研发的...
    文章 2017-07-04 1540浏览量
  • 智慧工厂,来晶澳看看!

    相关人员可以在钉钉上随时打开相应故障警报,一键创建故障跟踪群,自动关联故障问题,并拉入产线员工协同处理。钉钉机器人在工作群内实时推送产线问题。过去,对于一线员工来说,在上千名员工中找到相应的维修工程师...
    文章 2021-07-26 277浏览量
  • 带你读《企业数字化基石-阿里巴巴云计算基础设施实践...

    名气通机房反馈原因为供电系统故障导致数据中心大楼整体断电&xff0c;并触发消防报警。根据当地的消防规定&xff0c;必须彻底排查隐患并完全消除后&xff0c;才能获准进场做电力抢修。21点 22分&xff0c;机房正式恢复稳定...
    文章 2021-10-14 124浏览量
  • 阿里云弹性计算研发团队如何从0到1自建SRE体系

    之前发生了一起全链路连锁反应的故障故障发生的起因是其中某一个业务导致的,当时我们花了两个小时来定位和恢复问题,在事后复盘才发现故障开始前5分钟,已经有相关报警,但该报警接收同学的预警量太大,漏掉了...
    文章 2021-06-08 982浏览量
  • 网络安全:全面解析端点安全的四大支柱

    这就是持续监控和反馈之所以重要的原因。我们越是了解(而且可以演示)发生在外围和网络内的实际威胁与攻击,越能找出充足理由证明为保护那些企业资产所投入的注意力以及进行的支出是合理的。端点强硬化 第一个支柱—...
    文章 1970-01-01 1078浏览量
  • CPU静默数据错误:存储系统数据不丢不错的设计思考

    本文重点讨论数据的不丢不错故障原因,以及数据存储系统如何防控设计,不对数据库事务深入讨论。1 常见的磁盘、内存、网络数据翻转(Bit Flip)对于计算机系统来说,不管是计算还是存储,不管是电子部件还是机械部件...
    文章 2021-07-01 3325浏览量
  • 全网唯一完整译文|Waymo无人车报告:通往自动驾驶之路

    避免这个转接过程带来的问题,也是Waymo正在开发全自动驾驶汽车的部分原因。我们的技术将关注所有驾驶,让人类在车内保持「乘客」身份。目标和事件检测响应:车辆传感器 为了满足自动驾驶的复杂需求,Waymo开发了一...
    文章 2017-11-06 2380浏览量
  • 分分钟拯救监控知识体系

    4.总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。3 监控工具 下面我们需要选择一款合适公司业务的监控工具进行监控,这里我对监控工具进行了简单的分类 监控工具 老牌...
    文章 2017-11-12 2214浏览量
  • 转一篇:Hyper-V和VMware的高可用实时迁移技术详解

    使用VMware的高可用解决方案,虚拟机能在硬件故障的时候自动重启~ 第8页这样描述:"VMware的高可用如何工作?VMware的高可用解决方案能连续监控集群上托管的所有ESX服务器并对硬件故障进行探测。每台主机上...
    文章 2014-03-10 1297浏览量
  • 3+1保障:高可用系统稳定是如何炼成的?

    数据一致在分布式处理以及微服务化后,相关联的数据会存在于不同的系统之中,相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因,导致彼此数据出现不一致,这也是一类稳定性故障。...
    文章 2021-01-27 8940浏览量
  • 微软Windows时间服务器出现故障:你看到的时间可能是...

    不过在收到网友反馈之前,小编一直没太注意,也没有遇到这个问题,可能因为小编使用的是功能实用而强大的软媒时间吧。目前虽然微软在一定程度上对这种情况进行了控制,但其服务器仍然未完全同步。Windows设备和...
    文章 2017-07-05 1236浏览量
  • 如何做好一名稳定SRE-业务团队系统稳定的思与行

    数据化运营:主要是将稳定的指标量化,比如工单解决时间、工单数、报警数、报警响应时间、故障风险数、代码CR量,变更灰度时长等,通过量化指标,驱动团队同学建立量化意识,并且能给老板一份量化数据。...
    文章 2020-10-26 7499浏览量
  • 企业级自动化运维工具方案设计

    自动化运维是基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发现性能超标,超过预先配置的阀值或宕机,就会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助运维...
    文章 2019-12-13 2284浏览量
  • Chaos带你快速上手混沌工程

    失败重试场景演练在微服务架构中,一个大系统被拆分成多个小服务,小服务之间存在大量RPC调用,经常可能因为网络抖动等原因导致RPC调用失败,这时候使用重试机制可以提高请求的最终成功率,减少故障影响,让系统运行...
    文章 2021-11-15 245浏览量
  • DDD 不够好用,你需要学习如何进行弹性软件系统设计

    它从一个假设开始,例如“如果我们切断与此服务器的连接,将发生自动故障转移,最终用户不会察觉到任何差异”。然后,与受影响的开发人员和运营人员讨论该假设。假设是有效的吗?我们怎么测试它呢?我们如何衡量正确...
    文章 2022-01-21 65浏览量
  • 阿里巴巴统一运维智能化平台演进之路

    第三,软硬件故障导致服务的可用;第四,资源利用率的提升对于稳定的挑战非常大。实时计算和离线计算对于资源利用率的要求几乎一致,要达到80-90%的利用率。统一的运维自动化平台 这是阿里巴巴实时计算的平台和...
    文章 2018-07-20 2635浏览量
  • 自动化测试最佳实践 连载五

    4)缩短bug从发现到反馈相关人员的时间间隔(最初从几周缩短到几天,然后缩短到只隔一夜,最后缩短到检查代码之后就直接完成反馈。5)使用我们自己的数据库来收集统计数据,这样就可以在真实的产品环境中拥有自己...
    文章 2017-07-10 1670浏览量
  • 盒装软件向云应用程序和服务转变的六个关键

    鉴于与销售基于云的产品相关的可访问和普遍的期望,软件供应商需要采用连续释放的思维定式——正如我们前面提到的,经常更新他们的应用程序,而非每隔几年才推出产品包。这一对灵活软件开发的承诺——其中需求和...
    文章 2017-08-02 1345浏览量
  • 《Internet 路由结构(第2版•修订版)》一第7章 ...

    Internet 路由结构(第2版•修订版)尽管无论哪家公司或提供商都不愿意自己的网络中断,不过网络连通问题总是会因这样或那样的原因纷至沓来。连通问题取决于诸多因素。一条接入Internet的链路会涉及路由器、CSU/...
    文章 2017-05-02 1572浏览量
1 2 3 4 ... 17 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化