• 模拟驾驶能力输出,赋能客户提升稳定性信心

    2.1.2模拟驾驶工具包实验注入工具-Apsara Chaos PlatformApsara Chaos Platform(简称ACP)是混合云一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的冗余容错能力、故障隔离能力、可...
    文章 2020-10-28 13186浏览量
  • 视频监控日常使用存在哪些故障

    而在实际运行的视频监控系统中提取大量的视频片断,包括正常视频以及存在各种故障的视频,形成训练样本,并模拟人类视觉特性,针对不同故障类型提取了大量视频图像特征参数,用以训练得到诊断不同故障的检测器。...
    文章 2017-07-05 867浏览量
  • 视频监控日常使用存在哪些故障

    而在实际运行的视频监控系统中提取大量的视频片断,包括正常视频以及存在各种故障的视频,形成训练样本,并模拟人类视觉特性,针对不同故障类型提取了大量视频图像特征参数,用以训练得到诊断不同故障的检测器。...
    文章 2017-07-05 851浏览量
  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    初期:可以选择故障覆盖率这个指标(即发生并改进过故障系统,要能够免疫同样原因故障)。此时实验场景数就近似等同于故障覆盖率的分母。中期:可以选择监控发现率这个指标。此时实验场景数与实验次数是分母,...
    文章 2019-11-08 1348浏览量
  • 鲜为人知的混沌工程,到底哪里好?

    之前我们是通过Java字节码技术和操作系统层面的工具来分别模拟进程内和进程外的故障。随着Serverless、Docker等新架构、新技术的出现,故障实现机制和承接载体也将会有一些新的变化。2.3 在生产环境中运行实验 从...
    文章 2019-01-29 3183浏览量
  • 我们雇佣了一只大猴子.

    有了这个模型,我们就可以开始来设计模拟故障的演练系统了。图片来源于 QCon·北京 在客户机器部署OS层的故障插件,用来模拟硬件层的故障和单机进程外的故障。对于应用进程内的故障,提供插拔式的故障插件,也可以...
    文章 2019-02-28 2052浏览量
  • 阿里巴巴在混沌工程领域的实践和思考

    之前我们是通过Java字节码技术和操作系统层面的工具来分别模拟进程内和进程外的故障。随着Serverless、Docker等新架构、新技术的出现,故障实现机制和承接载体也将会有一些新的变化。2.3 在生产环境中运行实验 从...
    文章 2018-12-19 3260浏览量
  • 模拟MBR扇区故障

    运行:dd if=dev/sizo/dev/sda bs=512 count=1,命令来模拟故障: 可以看到已经成功复制 下面我们运行reboot命令来重启一下: 重启之后看到上图所示界面就意味着我们模拟MBR扇区故障成功。从RHEL6光盘引导,进入急救...
    文章 2017-11-23 944浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3789浏览量
  • 智能化网络管理 为企业信息化保驾护航

    而有限的技术人员并不能完全精通各种应用系统,很多时候数据库缓慢、应用慢并不能分析出故障的根源,从而导致很多时候故障处理效率不高,甚至还会形成遗留问题。通过详细而专业的技术指标监控,管理平台可以实时的...
    文章 2017-11-08 852浏览量
  • 信号本质

    信号本质 信号是在软件层次上对中断机制的一种模拟,软中断 信号来源 信号事件的发生有两个来源:硬件来源:(比如我们按下了键盘或者其它硬件故障);软件来源:最常用发送信号的系统函数是kill,raise,alarm和...
    文章 2013-02-24 541浏览量
  • 如何“神还原”数据中心?阿里联合NTU打造了工业级...

    接入该实时CFD模拟系统意味着阿里自研DCIM系统成为世界上唯一有高精度实时CFD模拟模块的数据中心云维管理系统。变更沙盘系统的价值 包间可视化:由原来的2D、数字的方式,升级为3D、图形数字结合的展现方式,包括...
    文章 2019-01-14 2816浏览量
  • 系统故障处理的思考

    4.通过上面的几步已经基本确定故障了,下来尽快恢复系统正常运行,然后再慢慢分析故障原因。5.通过查找上面时间点的系统故障日志,基本会看到相关的错误信息的,如调用了那个数据库对象、返回了什么oracle的错误、写...
    文章 2017-11-14 944浏览量
  • 数据中心故障大多源自于人祸

    数据中心出现故障在所难免,事后经过分析大部分根因都是人为因素导致,也就是人祸占据了所有故障原因的七成以上。一方面人们享受着自己设计的数据中心所能带来的工作和生活上的便利,另一方面也在承受着成长的烦恼,...
    文章 2017-10-06 1089浏览量
  • 模拟系统故障及排除

    模拟系统故障及排除 实验背景:在维护Linux服务器的过程中,准确把握故障发生的原因是最终排除故障、解决问题的关键。通过对常见系统故障模拟和分析排除,有助于管理员快速了解故障点,熟悉“对症下药”的Trouble ...
    文章 2017-11-15 1339浏览量
  • 东软SOC怎样维护社保行业的数据综合运维

    因数据整合分析到位,在故障或者攻击发生时,能够快速分析数据,找到故障的原因,针对故障原因高质量的解决故障。二、SOC的运维管理手段 社保行业业务系统状态总览界面 SOC通过前面所说的安全态势感知、数据整合分析...
    文章 2017-08-01 847浏览量
  • 网络故障分析案例:如何定位和解决网络丢包问题

    为了寻找问题原因,避免再次出现类似问题,在科来网络分析专家的协助下在出问题的PLC设备接入交换机处旁路部署了科来回溯分析系统进行数据包级分析。PLC网络环境及分析设备部署示意图如下 通过交换机端口双向流量...
    文章 2017-11-05 2505浏览量
  • 数据中心MTBF和AFR如何计算与应用?

    现场数据评估方法使用实际的现场故障数据,因此能够提供比模拟情况更准确的故障率评估。对于小批量生产的产品或新产品,此数据可能找不到;不过,对那些已在现场获得广泛应用的产品,应该始终采用此数据。因此,对于...
    文章 2017-07-03 1552浏览量
  • 云监控之运维篇

    随着公司的发展,公司的业务量不断的增加,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地提升硬件性能,为企业优化信息平台的投入成本呢?1.2 云监控如何解决 1.2.1 总体思路: 首先,需要安装...
    文章 2018-04-13 1926浏览量
  • 如何提高阿里云上应用的可用性(二)

    故障演练是一种比较新的高可用测试的方式,通过软件层面模拟各种可能出现的故障,观察应用系统对于故障的隔离和降级能力。这一专门的领域称之为Chaos engineering,在阿里内部,通过故障演练平台,每天都在进行着...
    文章 2018-11-01 1972浏览量
  • 数据库高可用面临的挑战与解决之道|OceanBaseDev

    有多种可能的故障原因: 硬件故障:磁盘、网络,甚至 CPU 和 Memory 均可能出现故障。以硬件厂商的统计数据为例,硬盘的年故障率达到1.25%,服务器的年故障率会更高;软件故障:操作系统、文件系统以及数据库系统本身...
    文章 2020-11-27 1190浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2016-05-05 4907浏览量
  • Linux之软件包类故障排错

    软件包类故障在Linux系统中比较常见,例如:需要编译源码包程序时系统中没有安装gcc编译工具,安装RPM软件包时有未解决的依赖关系,程序库文件或头文件的安装路径不正确等,软件包类故障产生的原因非常多,通常只...
    文章 2017-11-15 1273浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2017-11-08 1017浏览量
  • 云原生高可用技术体系构建

    在这种情况下,压测必须要尽可能的模拟一个真实的环境,而不能像以往一样,在一个特殊的环境去测试,压测时在流量规模、流量模型、系统环境上都需要一个尽可能真实的环境,这样子才能在故障发生时从容应对。...
    文章 2020-06-18 581浏览量
  • 安防监控系统的七个层次的分析

    模拟控制是早期的控制方式,其控制台通常由控制器或者模拟控制矩阵构成,适用于小型局部安防监控系统,这种控制方式成本较低,故障率较小。但对于中大型安防监控系统而言,这种方式就显得操作复杂且无任何价格优势了...
    文章 2017-07-03 931浏览量
  • 稳定性之故障应急处理流程

    红蓝对抗演习:与SRE联动,通过突袭方式,模拟一次故障。常规报警升级:TL或者稳定性负责人随机抽取一个短信告警,人为将其升级为故障,进入故障应急响应流程。2021阿里云峰会暨开发者大会亲爱的开发者,阿里云开发...
    文章 2021-05-18 1964浏览量
  • 关于问题查询的见解

    但是线上环境不可能或者不能debug,所以,最好还是在测试和开发环境模拟其线上场景,不断探测直到重现,再查询原因。保留现场及一些常见工具 由于,我们经常处理的措施是重启系统或者回滚系统,那一般当时出问题的...
    文章 2016-04-24 1390浏览量
  • 《中国人工智能学会通讯》——10.18 研究进展

    这些变化导致引发安全问题的原因已不再是单一的控制故障,从计算和通信引入的恶意攻击以及攻击故障连锁反应等新问题,使当前复杂网络化系统面临严峻的安全挑战。不同于控制设备自身故障引发的“坏数据”安全问题,...
    文章 2017-09-04 1761浏览量
  • CentOS 6 启动故障与恢复

    模拟故障,破坏磁盘MBR后的20个扇区(只要破坏stage1.5即可) 1 2 dd if=dev/zero of=dev/sda bs=1 count=10240 seek=512 hexdump-C-n 10552/dev/sda 重启系统,进救援模式,按esc键 切根 1 2 chroot/mnt/...
    文章 2017-11-12 917浏览量
1 2 3 4 ... 24 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化