• 关于

    标量图常见故障

    的搜索结果
  • 走近华佗,解析自动化故障处理系统背后的秘密

    例如一个交换机的网络故障(半坏不坏),可能就会引起大批的任务失败,但调查失败的根本原因可能要翻遍整个系统才知道是网络故障。更重要的是单集群的规模增大之后,人为处理故障过程中可能出错的概率更大,并且...

    文章 yq传送门 2016-12-18 4584浏览量

  • 当 Messaging 遇上 Jepsen

    partition-random-node和partition-random-halves故障是模拟常见的对称网络分区。kill-random-processes和crash-random-nodes故障是模拟进程崩溃,节点崩溃的情况。hammer-time故障是模拟一些慢节点的情况,比如发生...

    文章 中间件小哥 2019-11-22 4846浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...

    文章 技术小能手 2018-01-05 4779浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    对可疑故障链路进行红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...

    文章 初商 2019-07-31 845浏览量

  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    对可疑故障链路进行红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...

    文章 zengzengzeng 2017-12-14 1825浏览量

  • 2017双11技术揭秘—双十一海量数据下EagleEye的使命和...

    5 流量场景 基于此数据,也可以更好的复盘全链路压测数据。在压测之前(也可以在常态下)对关键业务打上指定的标签,压测后通过各业务场景的流量得出对应的性能基线,更好的定位核心链路中的问题及性能拼劲,...

    文章 中间件小哥 2017-12-26 4979浏览量

  • 如何有效可靠地管理大规模 Kubernetes 集群?

    这一设计参考控制理论中常见的负反馈闭环控制系统,系统实现闭环,可以有效抵御系统外部的干扰,在我们的场景下,干扰对应于节点软硬件故障。架构设计 如上,元集群是一个高可用的 Kubernetes 集群,用于管理 N 个...

    文章 缪克卢汉 2019-08-15 850浏览量

  • AIOps智能监控在阿里巴巴故障管理工作中的成功实践

    而对于运维人员较常见的系统级指控指标(如CPU,网络的流量等),GOC团队同样也演化出了一种适用于系统级(应用级)指标的轻级算法异常检测算法。这种算法的效果如下。这种算法可智能化的将海量数据中一些离群...

    文章 止水如心 2018-06-26 5687浏览量

  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    分布式系统常见依赖故障治理及技术演进 首先抛一个问题,什么情况下你会认为淘宝网挂了?我相信关注这个问题的人很多,不过能给出确切答案的人并不多。因为这个看似简单的问题,真要回答起来好像也不是那么容易。...

    文章 技术小能手 2017-06-19 3556浏览量

  • 万亿级数据洪峰下的分布式消息引擎

    列代表了分布式系统所关心的各项指标,包括数据一致性、事务支持程度、数据延迟、系统吞吐、数据丢失可能性、故障自动恢复方式。从中可以看出,不同的解决方案对各项指标的支持程度各有侧重。基于CAP原则,很难...

    文章 中间件小哥 2017-02-07 6940浏览量

  • 闲鱼神探——线上问题定位与快速解决

    为响应故障报警最快解决,集团内部很多团队都在做故障定位系统,这里简单比较常见的解法。1、基于专家经验的决策树模式目前最成熟,做的最多的方案是基于专家经验,对以往排查路径进行沉淀收敛,以决策树模型进行...

    文章 闲鱼技术 2020-07-28 1226浏览量

  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    列代表了分布式系统所关心的各项指标,包括数据一致性、事务支持程度、数据延迟、系统吞吐、数据丢失可能性、故障自动恢复方式。从中可以看出,不同的解决方案对各项指标的支持程度各有侧重。基于CAP原则,很难...

    文章 云木西 2017-01-12 5676浏览量

  • 八年来我们到底经历了什么?——中间件专家带你“重走...

    前期,我们将阿里电商常见故障进行画像和分析,得到初步结论,按照IaaS、PaaS、SaaS层进行初步划分,但这个模型无法完全通用,并非包含所有的故障;因此,后期我们对这一模型又进一步抽象,将故障分为进程内的故障...

    文章 场景研读 2017-08-04 7697浏览量

  • 《R语言数据分析与挖掘实战》——第3章 数 据 探 索 3...

    同时,通过观察可以看出日销量额数据也含有异常值,由于这里数据较大,所以使用箱形来检测异常值。R语言检测代码如代码清单3-1所示。运行上面的程序,可以看到缺失值个数输出结果为“1”,占样本总量的0.497%,...

    文章 华章计算机 2017-05-02 2261浏览量

  • AI助力日志中心智能化运营

    时间戳是日志的关键信息,时间戳后的数值即为常见的监控消息,更广泛时,变更的事件例如某一时间点某一业务的上线也可作为一种日志事件,当日志平台真正做好AIOps时,需要提供全面的日志信息。就日志易而言,目前对...

    文章 sherlding 2018-06-23 10060浏览量

  • 表格存储如何实现高可靠和高可用

    为了获得更高的可用性,可以将两套系统或者多套系统组成主备,搭建容灾,常见的比如同城双机房场景。同城双机房配合自动切换或者快速的人工切换,可以使系统达到更高的可用性。此外,业务可以对应用进行一些弹性的...

    文章 亦征 2017-11-08 7365浏览量

  • 软件测试方法和技术

    大量测试实践表明,许多故障往往发生在输入定义域或者输出值域的边界上,而不是在其内部。边界值分析法基本思想:选取正好等于、刚刚大于和刚刚小于边界值的数据最为测试数据 例子:假设有两个变量x1和x2的函数F,a&...

    文章 runcare 2015-05-07 1121浏览量

  • 万级规模 K8s 如何管理?蚂蚁双11核心技术公开

    这一设计参考控制理论中常见的负反馈闭环控制系统,系统实现闭环,可以有效抵御系统外部的干扰,在我们的场景下,干扰对应于节点软硬件故障。架构设计 如上,元集群是一个高可用的 Kubernetes 集群,用于管理 N 个...

    文章 技术小能手 2019-11-13 6153浏览量

  • 日志易饶琛琳分享:AI 助力日志中心智能化运营

    时间戳是日志的关键信息,时间戳后的数值即为常见的监控信息,更广义上,变更的事件例如某一时间点某一业务的上线也可作为一种日志事件,当日志平台真正做好 AIOps 时,需要提供全面的日志信息。就日志易而言,目前...

    文章 日志易 2018-09-25 2108浏览量

  • 微博热点事件背后数据库运维的“功守道”

    3 鹿晗关晓彤CP评论业务 4 鹿晗关晓彤CP 话题业务 面临的挑战 微博研发中心数据库部门主要负责全微博平台后端资源的托管和运维,主要涉及的后端资源服务包括MySQL、Memcached、Redis、HBase、Memcacheq、Kafka...

    文章 zhangdh1113 2018-09-27 1295浏览量

  • 硬盘分区恢复全攻略

    1.计算机中一定要安装杀毒软件,这不仅可以防止各种常见的病毒入侵计算机,更能够减少使用软盘或者光盘时,分区表误中病毒的可能性。而且在一般情况下,尽量不要使用来源不明的软盘与光盘。2.新购置的硬盘建议在安装...

    文章 技术小甜 2017-11-08 1082浏览量

  • 为高度连接数据而生 阿里云数据库GDB揭秘

    常见算法 我们也会进一步在各个层面对数据库的生态进行完善,包括提供相关工具或环境让用户能够便利的对接到业界流行的的一些相关系统,比如可视化系统,分析系统等。写在最后 数据库GDB是阿里云数据库...

    文章 KB小秘书 2019-07-28 1209浏览量

  • 备战双 11!蚂蚁金服万级规模 K8s 集群管理系统如何...

    这一设计参考控制理论中常见的负反馈闭环控制系统,系统实现闭环,可以有效抵御系统外部的干扰,在我们的场景下,干扰对应于节点软硬件故障。架构设计 如上,元集群是一个高可用的 Kubernetes 集群,用于管理 N 个...

    文章 阿里巴巴云原生小助手 2019-10-28 5217浏览量

  • 阿里云数据库GDB揭秘

    常见算法 我们也会进一步在各个层面对数据库的生态进行完善,包括提供相关工具或环境让用户能够便利的对接到业界流行的的一些相关系统,比如可视化系统,分析系统等。写在最后 数据库GDB是阿里云数据库...

    文章 泽贤kevin 2019-03-21 21469浏览量

  • DevOps:软件架构师行动指南2.2 云的特性

    有可能还会有其他操作系统类软件的层,但每一层都会引入额外的开销,因此最常见的情况就是我们所描述的这种。2.装载虚拟机 每个虚拟机需要装载一组软件才能做有意义的工作。软件可以作为虚拟机的一部分进行装载,也...

    文章 华章计算机 2017-05-02 1750浏览量

  • 如何用好PostgreSQL的备份与恢复?

    一个常见故障是数据误操作,即修改了不应该修改的数据。从数据库的角度看,误操作是正常的操作,不会进行自动恢复,只有使用备份数据才能恢复。同时,提供一段时间内历史数据的访问,也是一个常见的需求。数据的...

    文章 chengxiaozc 2017-10-22 7444浏览量

  • 阿里云NAS文件存储部署方案介绍和对比

    而如果采用其他的存储方式,以最常见的对象存储或者块存储为例的话,就会面临一些限制,比如使用对象存储的话需要对现有软件进行改造,来适配对象存储的SDK;而使用块存储的话本质上软件看到是一块硬盘,需要借助...

    文章 nas-hz 2017-05-19 17504浏览量

  • 带你读《Python机器学习》之一:机器学习基础

    基于贝叶斯定理的一类算法统称为贝叶斯方法,该类算法是为了解决不定性和不完整性问题提出的,对于解决复杂设备不确定性和关联性引起的故障有很大的优势,在多个领域中获得广泛应用,主要用来解决分类和回归问题。...

    文章 温柔的养猫人 2019-11-16 1805浏览量

  • 阿里云对象存储 OSS 发布全球第一可用性 SLA 背后的...

    二、OSS 可用性 SLA 说明2.1 常见的可用性指标(年故障时长)业界对可用性的描述,通常采用年故障时长。比如,数据中心机房划分为不同等级,如 T1~T4 机房,它们的可用性指标如下所示。 T1 机房:可用性 99.671%...

    文章 阿里巴巴存储技术 2020-06-17 288浏览量

  • 蚂蚁金服红蓝军技术攻防演练究竟有多“狠”

    用“可乐山”明志,是程序员常见的套路 2018年3月,蓝军推出故障场景挖掘平台,基于Awatch探针探测应用内数据流,以此进行“弱点挖掘”。这套弱点挖掘体系,能够自动发现故障场景,最高能够在5分钟内产生500+的故障...

    文章 华蒙 2018-12-19 4316浏览量

1 2 3 4 ... 20 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化