• 分布式主动感知在智能运维中的实践

    但这样处理,下次可能还会出现同样的问题。如果将故障放到ITSM部分进行分析,就能让问题得到更根本的解决。发现故障后,通过请求管理把这件事告诉后台人员,后台人员看到请求后将故障升级为“事件”并提交给研发人员...
    文章 2019-07-09 2293浏览量
  • 《人工智能:计算Agent基础》——1.6 原型应用

    效用不确定性也会存在,因为Agent可能不知道治疗结果,而且治疗经常会出现未预料到的结果。目标,可能会像“确定出错的问题”这么简单,但通常会涉及花费、疼痛、预期寿命、诊断的正确率、疗效的不确定性、治疗的副...
    文章 2017-07-03 1209浏览量
  • Spring Cloud面试题万字解析(2020面试必备)

    除此之外,Eureka还有自我保护机制,如果在15分钟内超过85%的节点没有正常的心跳,那么Eureka就认为客户端与注册中心发生了网络故障,此时会出现以下几种情况: ①、Eureka不在从注册列表中移除因为长时间没有收到...
    文章 2020-05-12 795浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4849浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 933浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1853浏览量
  • Redis监控技巧总结

    你可以通过对rdb_last_save_time进行监控,了解你最近一次 dump 数据操作的时间,还可以通过对rdb_changes_since_last_save进行监控来知识如果这时候出现故障,你丢失多少数据。主从复制 如果你设置了主从复制模式...
    文章 2017-11-15 956浏览量
  • 《Effective Debugging:软件和系统调试的66个有效...

    更为复杂的程序运行在应用程序服务器中,调用Web服务,使用关系型数据库及NoSQL数据库,从目录服务器上获取数据,运行外部的程序,利用其他的中间件,也纳入很多第三方的软件包。于是,要想令整个系统...
    文章 2017-07-04 1372浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2016-05-05 4854浏览量
  • 什么?还没听说过Prometheus,或许你需要了解这些知识...

    如果是因为底层Web服务出现故障,你同样也知道。4 静态监控 另一种反模式是使用静态阈值-例如,如果主机的CPU使用率是否超过80%就发出警报。这种检查通常是不灵活的布尔逻辑或者一段时间内的固定阈值,它们通常...
    文章 2019-09-20 739浏览量
  • 2020年SpringCloud 必知的18道面试题

    Hystrix是一个延迟和容错库,旨在隔离远程系统,服务和第三方库的访问点,当出现故障是不可避免的故障时,停止级联故障并在复杂的分布式系统中实现弹性。通常对于使用微服务架构开发的系统,涉及到许多微服务。这些...
    文章 2020-11-12 3211浏览量
  • 高可用 Redis 服务架构分析与搭建

    你可能问,为什么Redis要有这个50%的设定?假设我们允许小于等于50%的Sentinel连通的场景下也可以进行主从切换。试想一下【异常3】,即服务器1和服务器2之间的网络中断,但是服务器本身是可以运行的。如下图所示:...
    文章 2018-10-07 1065浏览量
  • Redis不懂,面试担心不过,一次性解决面试Redis题目...

    自动故障迁移(Automatic failover):当一个主服务器不能正常工作时,Sentinel 开始一次自动故障迁移操作。特点: 保证高可用 监控各个节点 自动故障迁移 缺点:主从模式,切换需要时间丢数据 没有解决 master ...
    文章 2018-09-20 1479浏览量
  • 高可用 Redis 服务架构分析与搭建

    你可能问,为什么Redis要有这个50%的设定?假设我们允许小于等于50%的Sentinel连通的场景下也可以进行主从切换。试想一下【异常3】,即服务器1和服务器2之间的网络中断,但是服务器本身是可以运行的。如下图所示:...
    文章 2018-10-07 837浏览量
  • 初识SpringCloud(2)集群/分布式/微服务/SOA的相关...

    只要是分布式系统,那很有可能会出现一种情况:因为一些故障,使得有些节点之间不连通了,整个网络就分成了几块区域。数据就散布在了这些不连通的区域中,这就叫分区 现在出现了网络分区后,此时有一个请求过来了,...
    文章 2019-05-24 10005浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    其次是管理体系,即团队以什么方式推动事情的运转、依托什么样的流程等,固化人在考虑问题和做事情时系统化的思维和方式。备件资源。如果将维修人员比作大厨,备件就相当于粮食和蔬菜。俗话讲:巧妇难为无米之炊。...
    文章 2019-11-08 1195浏览量
  • 三年0故障总结,提升代码质量的秘诀

    这也是知识分享的一个过程,团队更有经验的同学对你的代码提出建议;review人员可以从中获取业务/技术相关信息;被review人员因为有人review你的代码,而不得不提升自己的代码质量,以及代码的熟悉程度。代码规范...
    文章 2015-12-08 15111浏览量
  • 三年0故障总结,提升代码质量的秘诀

    这也是知识分享的一个过程,团队更有经验的同学对你的代码提出建议;review人员可以从中获取业务/技术相关信息;被review人员因为有人review你的代码,而不得不提升自己的代码质量,以及代码的熟悉程度。代码规范...
    文章 2017-12-01 1571浏览量
  • 三年0故障总结,提升代码质量的秘诀

    这也是知识分享的一个过程,团队更有经验的同学对你的代码提出建议;review人员可以从中获取业务/技术相关信息;被review人员因为有人review你的代码,而不得不提升自己的代码质量,以及代码的熟悉程度。代码规范...
    文章 2017-12-04 1424浏览量
  • 网络世界的数据学术》一 3.2 知识基础设施

    这里的网络包括技术、智力活动、学习、协作以及通过分布式获取人类专业知识和记录信息等内容。后来者从学术社区视角出发对以上观点进行探究,发现可以将其解释为三方面内容,即知识基础设施如何变化?信息基础设施的...
    文章 2017-09-08 950浏览量
  • 高可用 Redis 服务架构分析与搭建

    你可能问,为什么Redis要有这个50%的设定?假设我们允许小于等于50%的Sentinel连通的场景下也可以进行主从切换。试想一下【异常3】,即服务器1和服务器2之间的网络中断,但是服务器本身是可以运行的。如下图所示:...
    文章 2018-10-08 782浏览量
  • WSFC日志分析进阶篇

    在实际使用中,对于隔离监视器的使用需要谨慎,因为有时候启用单独的隔离监视器就会出现单独的RHS进程,每个进程都要占用CPU和内存资源,因此需要在考虑服务器资源的情况下启用该高级功能。RCM:Resource Control ...
    文章 2017-11-12 970浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2020-02-07 203浏览量
  • 大型网站稳定性技术建设

    比如说,一个业务每天的流量峰值一般在中午 12:00 和下午 18:00,那么这种峰值在没有特殊情况出现的前提下,应该遵循该峰值时间规律。那么流量毛刺是啥呢?如下图所示:从图中左侧部分可以看到,8 点钟有流量的...
    文章 2019-06-25 871浏览量
  • 领英如何应对Apache Spark的Scalability挑战

    在Spark中运行时,错误可能会出现在任何地方,用户至少需要很多步骤才能获取到相关日志,寻找出错原因,有时即使找到出错日志但想找到根本原因也不是很容易的事情。而且Spark用户花费了很多功夫终于调试好了,但运行...
    文章 2020-07-30 584浏览量
  • Monitoring Apache Spark 面临新挑战

    另外,在一个executor发生故障时,启用另一个executor的情况下不应该出现警报。检查Spark应用程序。在Driver发生故障时,应用程序需要连接到别的application context和worker节点上仍然可以使用。在这种情况下,...
    文章 2017-07-03 753浏览量
  • 15年老司机的DPM数据库性能分析产品研发之路

    获取Hang Analyze的trace,并执行一会: oradebug setmypid oradebug unlimit oradebug-g all hanganalyze 3 下面步骤将执行时间比较长,需监控是否有对应文件生成: oradebug-g all dump systemstate 267 若...
    文章 2017-05-12 2153浏览量
  • 关于Java中的时间处理,你真的了解吗?

    一般如果软件系统中出现这个时间的时候,代表着出现了网络故障、线上bug等。 当有些计算机存储或者传输时间戳出错时,这个时间戳就取默认值。而在计算机中,默认值通常是 0。当 Timestamp 为 0,就表示时间(GMT...
    文章 2019-05-06 1697浏览量
  • Monitoring Apache Spark 面临新挑战

    另外,在一个executor发生故障时,启用另一个executor的情况下不应该出现警报。检查Spark应用程序。在Driver发生故障时,应用程序需要连接到别的application context和worker节点上仍然可以使用。在这种情况下,...
    文章 2017-09-01 1164浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2019-08-07 521浏览量
1 2 3 4 ... 10 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化