• 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 3724浏览量
  • 《Effective Debugging:软件和系统调试的66个有效...

    对于消耗资源较多的故障诊断任务来说,要留出足够的CPU及磁盘资源(参见第19条)。鼓励开发者之间通过代码评审及编程指导等手段进行协作(参见第39条)。鼓励大家进行测试驱动开发(参见第42条)。在构建软件的时候...
    文章 2017-07-04 1375浏览量
  • 什么?还没听说过Prometheus,或许你需要了解这些知识...

    协助故障诊断 作为基础架构、应用程序开发和业务人员的信息源 同时它也应该是: 内置于应用程序设计、开发和部署的生命周期中 尽可能自动化,并提供自服务 注:这种对监控系统“良好”的定义与另一个新出现的术语-可...
    文章 2019-09-20 739浏览量
  • WSFC日志分析进阶篇

    在实际使用中,对于隔离监视器的使用需要谨慎,因为有时候启用单独的隔离监视器就会出现单独的RHS进程,每个进程都要占用CPU和内存资源,因此需要在考虑服务器资源的情况下启用该高级功能。RCM:Resource Control ...
    文章 2017-11-12 970浏览量
  • OSS服务监控、诊断故障排除

    相对于传统的软件运行环境,云数据分布式托管环境虽然解决了很多应用业务在基础设施搭建、运维管理等方面的问题和成本困难,使得应用服务搭建的门槛降低,但是其复杂的云环境,也大大增加了对其监控、诊断故障排查...
    文章 2016-05-19 29613浏览量
  • 揭露Windows中各种不老实的服务

    一般情况下,禁用这个服务并不会有什么问题,但有时很可能导致几个与网络有关的服务无法启动,并出现无法拨号上网的现象。推荐设置:如果你要上网,或是处于局域网中,建议将其设为“自动”。3.IMAPI CD-Burning ...
    文章 2017-11-15 845浏览量
  • Linux之系统故障分析与排查

    当"/boot/grub.conf'配置文件丢失,或者关键配置出现错误,或者MBR记录中的引导程序遭到破坏时,Linux主机启动后可能会出现"grub>“的提示符,无法完成进一步的系统启动过程。如果在该提示符,可以进行编辑,通过...
    文章 2017-11-16 1766浏览量
  • 《高效能程序员的修炼》一第一条法则:永远都是你的错

    无论你的软件出现什么样的问题——甚至最开始出错的地方根本就不是你的代码——你也应该总是假定问题出在你的代码里,并且根据这个假设采取行动。如果你想让世界人民接受你的软件,那你就要为它的故障承担全责。尽管...
    文章 2017-05-02 1280浏览量
  • 中国或成医疗AI最大市场,谁能成就医学界 ImageNet?...

    张勤教授创立动态不确定因果图的本意是为了解决核电站的在线故障诊断,因为核电故障数据极少,诊断要求高(要诊断从未出现过的故障),必须充分利用领域专家知识才行。核电站有数千甚至数万个实时动态信号,故障发展...
    文章 2017-08-01 807浏览量
  • SQL Server DBA工作内容详解

    虽然不希望Microsoft SQL Server 2008系统出现故障,但是故障可能是无法避免的。这些故障可能每天都会发生。有些故障是人为不小心造成的,有些故障可能是系统中的缺陷形成的,有些故障可能是莫名其妙的。作为一个DBA...
    文章 2012-03-14 769浏览量
  • SQL Server DBA工作内容详解

    虽然不希望Microsoft SQL Server 2008系统出现故障,但是故障可能是无法避免的。这些故障可能每天都会发生。有些故障是人为不小心造成的,有些故障可能是系统中的缺陷形成的,有些故障 可能是莫名其妙的。作为一个...
    文章 2017-07-03 1737浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    2.预测性维修预测性维修是以设备当前的实际工作状况为依据,相比传统的以设备使用时间为依据的维修,它通过先进的状态监测与诊断手段,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出判断,根据诊断结果来...
    文章 2019-11-08 1226浏览量
  • 15年老司机的DPM数据库性能分析产品研发之路

    通过脚本管理、SSH端口、远程命令调用等功能将诊断信息收集标准化,并整合进平台,帮助DBA在处理相关问题时进行快速信息搜集,熟练的故障信息收集能够减少故障处理的时间,这些必要的信息对于原因查找以及故障诊断和...
    文章 2017-05-12 2156浏览量
  • IBM P系列小型机故障的基本定位

    6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag diag gt;选高级诊断(Advance Diagnostic) gt;选问题诊断(Problem Determination)或 选系统检查(System ...
    文章 2017-11-16 1270浏览量
  • 如何检测 Web 服务请求丢失问题

    我们可以这样来解释这个问题,客户端流量进入 Web 服务器,如果 Web 服务器处理不过来(超出可承受的最大流量或者 Web 服务器本身可能出现 FullGC,OOM,死锁,线程池慢问题),那客户端设置超时的请求将会出现 499...
    文章 2019-09-16 2010浏览量
  • 望闻问切诊断问题

    通过前面的望和闻,咱们产生一些疑问,再通过相关几个人讨论、对比求证,寻找出现问题的特征条件,逐步缩小范围,理清思路,包括: 一起讨论头脑风暴;一对一交流确认疑点;问发生问题的条件、操作顺序等。切 切脉...
    文章 2016-07-21 3658浏览量
  • Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
    文章 2017-08-18 2178浏览量
  • 带你读《Prometheus监控实战》之一:监控简介

    虽然有助于让你知道发生了什么,但它们通常对故障诊断和调查最有帮助。我们不会在本书中详细介绍日志,但是有很多可用的工具(如ELK堆栈)可用于收集和管理日志事件。我写了一本关于你可能感兴趣的ELK堆栈的书。由于...
    文章 2019-11-11 3604浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样在关键时刻让你的应用出现“崩”的情况。阿里巴巴工程师的高可用架构建设...
    文章 2020-02-18 4571浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    分析下来发现聚合操作一般跨越2~5个窗口,超过之后聚合结果就稳定下来。所以可以考虑将聚合结果持久化。效果 系统上线以来经受住了实践的检验,故障以及日常问题的定位效率得到显著提升,并获得了稳定性的...
    文章 2019-07-24 11761浏览量
  • 《工业控制网络安全技术与实践》一2.5.2 PLC的基本...

    这样,即使某个CPU 出现故障,整个系统仍能正常运行。2.存储器存放系统软件的存储器称为系统程序存储器,存放应用软件的存储器称为用户程序存储器。PLC常用的存储器类型主要有RAM、EPROM和 EEPROM。RAM(Random ...
    文章 2017-09-07 1669浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样在关键时刻让你的应用出现“崩”的情况。阿里巴巴工程师的高可用架构建设...
    文章 2020-02-18 4969浏览量
  • 困知,勉行-阿里云服务观

    并负责安全的吴翰清发出的几句感慨:“前各部门准备演讲的时候,王坚博士把每个Speaker叫到一起,一个字一个字地抠PPT,并明确强调这次大会谁都不许吹牛,只许讲用户的痛点,然后要讲对用户承诺什么。所以我们私下...
    文章 2016-12-25 3439浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    负责稳定性的同学应该对这种场景不陌生:系统在夜间或整点大促时会出现偶发性的接口超时,等到发现问题再去排查时,已经丢失了异常现场,并且难以复现,无法通过手动 jstack 来诊断。而目前开源的链路追踪实现一般...
    文章 2021-08-24 214浏览量
  • 什么样的云数据库架构选型才能做到安全,稳定又可靠?

    刚刚接触数据库的同学可能不太了解可维护时间这个概念,其实可维护时间和之前提到的链路是紧密相关的,通常情况下即使自己搭建数据库,也会出现数据库损坏、升级、重启或者网络需要进行变更的时候,这个时候连接一定...
    文章 2017-05-19 5009浏览量
  • 当红架构Cloud Native,怎么搭建才能成为上云助攻手?

    另外,云的进化速度很快,持续地更新,现在大多数都是基于Linux的技术栈,可能不时地出现bug或安全漏洞,如果自己去跟进是非常困难的,公有云一般都会有专业的团队,及时跟进和修复这些安全问题,又省下了用户一...
    文章 2017-05-16 2303浏览量
  • linux系统启动过程详解-开机加电后发生了什么-linux...

    诊断程序:通过读取CMOSRAM中的内容识别硬件配置,并对其进行自检和初始化;CMOS设置程序:引导过程中,用特殊热键启动,进行设置后,存入CMOS RAM中;系统自举装载程序:在自检成功后将磁盘相对0道0扇区上的引导...
    文章 2016-05-18 2312浏览量
  • 什么是好的测试用例[51Testing]

    大多数情况下,你从通过测试的程序中学到的东西比没通过测试的程序中学到的多,但有信息的测试教你(减少不确定性)判定程序是否能通过测试。i.比如,如果我们已经在多次构建之后运行了一个测试,并且程序每次都...
    文章 2013-03-21 1186浏览量
  • 软件调试是鸡肋?你的认知决定你的层次!

    第一,重现故障,通常是在用于调试的系统上重复导致故障的步骤,使要解决的问题出现在被调试的系统中。第二,定位根源,即综合利用各种调试工具,使用各种调试手段寻找导致软件故障的根源。通常测试人员报告和描述的...
    文章 2018-11-29 1792浏览量
  • SQL性能突然降低引起的业务办理缓慢案例一则

    执行计划中的5到13步都是采用嵌套循环连接方式,嵌套循环连接方式的缺点就在于当驱动表的数据量越大,其循环扫描被驱动表的次数越多,故问题可能会出现嵌套循环的连接中。再看在 SQL PLAN ID=4 的时候是将 SQL_PLAN_...
    文章 2017-07-18 2048浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化