• 十年CDP,专业治疗服务器“脑裂”问题

    由于相互失去了联系,都以为是对方出了故障,2个节点上的HA软件像“裂脑人”一样,“本能”地争抢“共享资源”、争起“应用服务”,就会发生严重后果:或者共享资源被瓜分、2边“服务”都起不来了;或者2边“服务”...
    文章 2017-07-04 1645浏览量
  • 节假日正是测试数据中心监控的好时机

    毫无疑问,通过单个服务器和集群之间的故障切换测试,可以确保在数据崩溃或硬件故障时,数据中心继续履行所有的服务,但是当数据中心电力中断的故障发生怎么办?难道切换到发电机,通知工作人员关闭任何不必要的...
    文章 2017-07-04 833浏览量
  • 石家庄运用大数据平台管控电梯安全

    “电梯应急处置平台”运行后,发生故障的电梯属于哪个维保单位,维保单位签约维保的电梯每月发生故障的数量、频次,救援时效等情况一目了然。质监部门以维保单位的维保质量和救援效率作为主要内容对在电梯维保单位...
    文章 2017-07-05 1580浏览量
  • 利用SQL SERVER 2005数据库镜像实现可用性

    确保数据的完整:要求只要是用户提交到服务器上的数据,那怕说数据刚提交上主体服务器就发生故障了,也能保证数据不会丢失。故障转移之后的数据是不会丢失,从而保证数据库的完整性 高级别保护模式: 我们从名称上也...
    文章 2017-11-14 1071浏览量
  • 基于scn备份解决dg归档丢失的方法论

    这种保护模式是为了确保主库故障时,不会发生数据丢失。要提供这种级别的保护,恢复所需的重做数据必须在事务提交之前,同时写到本地联机重做日志和至少一个备用数据库上的备重做日志。若如果主库无法写重做流到备库...
    文章 2017-11-07 1558浏览量
  • 十个应对数据中心宕机的措施与方法

    虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的...
    文章 2017-10-02 1192浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    基于以上考虑,结合华佗自我保护机制,华佗引入Quota管理和手工驾驶,即当故障率超过华佗预设阈值时,它将直接报警,不再采取任何措施,进入手工驾驶状态,同时日常的变更也可以进入手工驾驶的状态。Portal 华佗的...
    文章 2016-12-18 4724浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    在我们的日常生活中因为 app 侧相对稳定,“崩”一般发生在看不见摸不着的“服务端”(或者叫云端),而这个服务端有多复杂?以一个较为成熟的云上架构为例,光是阿里云中构建一个在线服务可以用到的云计算基础、...
    文章 2020-02-18 4597浏览量
  • 双11幕后超级英雄:新一代运维的价值

    智能时代的运维不是要让运维人员失业,而是对运维效率的提高有着极大的诉求,比如如何在错综复杂的环境中快速定位问题、root cause、甚至是故障预测,避免发生故障,保障应用稳定性。智能运维要借助数据(运维数据)和...
    文章 2017-11-15 4731浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    在我们的日常生活中因为 app 侧相对稳定,“崩”一般发生在看不见摸不着的“服务端”(或者叫云端),而这个服务端有多复杂?以一个较为成熟的云上架构为例,光是阿里云中构建一个在线服务可以用到的云计算基础、...
    文章 2020-02-18 5055浏览量
  • 十条运维经验,帮你远离故障

    所以请保护好变更的现场,使得变更有回头的机会。2.小心破坏性的操作 什么是破坏性的操作?比如:对 Oracle 而言,有truncate table_name,delete table_name,drop table_name。这些语句执行起来轻松简单也惬意极了...
    文章 2019-11-29 906浏览量
  • 物联网来临 应用性能监测凸显重要

    如果应用任何一个环节发生故障,其他的全部环节也会受其影响。有些公司可以需要管理一系列运输工具,如UPS等,该流程的复杂性就愈加放大了。UPS安装了各种连接设备,用于实时监测运输工具的里程、最佳行驶速度与总体...
    文章 2017-07-12 903浏览量
  • 浅谈对微服务中熔断和降级的理解

    相应的,服务熔断一般是指软件系统中,由于某些原因使得服务出现了过载现象,为防止造成整个系统故障,从而采用的一种保护措施,所以很多地方把熔断亦称为过载保护。大家都见过女生旅行吧,大号的旅行箱是必备物,...
    文章 2020-03-18 1269浏览量
  • SAP数据中心概述

    万一着火了怎么办&xff1f;数据中心被分为多个防火分区。数千个火灾探测器和吸气式烟雾探测器监控着所有机房。一旦探测器检测到过热电子元件散发出的特殊气体&xff0c;会发出预警。如果发生火灾&xff0c;会自动向消防部门...
    文章 2021-11-29 1浏览量
  • 年关将至,服务器被入侵了怎么办

    1将服务器安全应急响应流程分为发现安全事件(核实)、现场保护、服务器保护、影响范围评估、在线分析、数据备份、深入分析、事件报告整理等8个环节。接下来我们将每个环节分解,看看需要如何断开异常连接、排查...
    文章 2017-05-15 2056浏览量
  • 创建良好数据管理计划的10个简单规则

    这个计划有助于每个人确切地知道他们需要什么,如果需要的话该怎么办。以下是可以编写一个良好的数据管理计划的十个简单的步骤。1.定义每个人的角色 企业的项目中可能会有很多人参与。然而,即使只有两三个人,也...
    文章 2017-07-27 828浏览量
  • 开发者社区精选直播合集(三)|企业级安全架构

    5.随时发生的系统故障&xff0c;防不胜防的勒索病毒&xff0c;人为或者误操作带来的运维事故&xff0c;还有不可预知的自然灾害&xff0c;数据的丢失损坏都会对业务造成难以估量的损失&xff0c;通过云上与本地数据统一备份做到...
    文章 2021-07-20 442浏览量
  • 一个复杂系统的拆分改造实践

    3.1.1 主键id接入全局id发生器 DB拆分的第一件事情就是使用全局id发生器来生成各个表的主键id。为什么?举个例子,假如我们有一张表,两个字段id和token,id是自增主键生成,要以token维度来分库分表,这时继续使用...
    文章 2017-01-04 7709浏览量
  • 高效运维之员工的四大误区及解决之道

    另外,也不要觉得自己负责的这部分没问题,于是对发生的重大故障,就再也不管不问、隔岸观火。应该主动和大家一起分析讨论,群策群力,解决问题。如果下次你负责的这部分出现了严重故障,其他人都漠然坐上观,你是否...
    文章 2016-06-09 2916浏览量
  • 2017,那些我们一起删库跑路的日子

    1月20日,大约一定是受到川普上任的影响,突如其来的服务器故障影响了一大批炉石玩家,恢复时间长,由于意外断电,导致数据库损坏,不得不通过游戏回档恢复数据库的使用。(关于炉石传说的Oracle数据库故障不要以为...
    文章 2017-07-17 3253浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    1.1,谁适合做稳定性?就像前言里我做稳定性前期的心态一样,稳定性最初上手,是提心吊胆、不得其门而入的,所以想要做好稳定性,心态最重要,业务团队想要找到合适做稳定性的人,态度也很重要。对于业务团队,要...
    文章 2020-10-26 4794浏览量
  • RAID磁盘利用率详解

    使用RAID10,可以获得更好的可靠性,因为即使两个物理驱动器发生故障(每个阵列中一个),数据仍然可以得到保护。RAID10需要4 2*N 个磁盘驱动器(N>0),而且只能使用其中一半(或更小,如果磁盘大小不一)的磁盘用量...
    文章 2016-05-03 3761浏览量
  • SQL server与Oracle数据库镜像对比

    运行在这种模式下,允许有少量的数据丢失,因为在发生故障(无论什么样的故障)前,恢复能够在任意一个点上执行。在SQL Server中是类似的,但是有三种状态需要选择。《SQL Server联机丛书》,像许多其它的在线资源...
    文章 2017-07-10 1213浏览量
  • 饿了么分布式服务治理及优化经验

    如果线上发生了一个故障,比如交换机发生故障,影响到某个业务,但是业务报警没有报出来,那业务要承担连带责任,因为你没有报警出来。报警最常见的基于阈值,阈值这件事情比较痛苦,我们有很多指标,但这个阈值怎么...
    文章 2017-11-15 900浏览量
  • 信息系统项目管理01——信息化和信息系统

    (2)MMTR——平均维护时间,可维护性用此度量,这是系统发生故障后维修和恢复正常花费的平均时间。1.4 软件工程 1 需求 1 好的需求应该具有无二义性、完整性、一致性、可测试性、确定性、可跟踪性、正确性、必要性...
    文章 2020-12-11 117浏览量
  • 音频开发中常见的四个错误

    我们将在此处以及操作列表的函数中使用互斥锁保护进程&xff1a;pthread_mutex_t_noteListMutex;void MyAudioRenderFunction(){/Lock it uppthread_mutex_lock(_noteListMutex);Make noisefor(int i&61;0;i<noteList...
    文章 2021-03-17 110浏览量
  • Linux下用mdadm实现软件RAID

    有了RAID做保障,电脑里的数据看起来似乎已经很安全了,然而现有的情况还是不能让我们高枕无忧,想一想,万一磁盘出现故障怎么办?下面我们模拟一个更换RAID5故障磁盘的完整过程,希望以此丰富大家处理RAID5故障的...
    文章 2016-05-25 1359浏览量
  • 阿里云服务器购买前应该注意哪些事项?

    1、原始数据(数据库数据,附件,程序文件)迁移至您购买的云服务器或者阿里云的RDS2、相关授权软件安装和环境配置的同步3、故障排查(不含您程序排错)免费安装的范围:相关授权软件安装和环境配置的同步。
    文章 2019-12-18 3915浏览量
  • 全闪存存储时代 NVMe到底是什么?

    华为存储在PCIe积累多年,具备完善的PCIe链路管理、PCIe异常处理技术、PCIe热拔插技术,并提供端到端的PCIe系统可靠性,保证单盘更换或是发生故障时不扩散,保障系统可靠性。NVMe SSD拔出示意图 如上图所示,NVMe ...
    文章 2017-08-01 2278浏览量
  • 【智驾深谈】特斯拉死亡事故官方洗白,业界被判死缓...

    作为NHTSA 对特斯拉的Autopilot 系统检验的一部分,故障调查办公室(ODI)分析了以下几个主题:1)该款特斯拉车型中的自动紧急制动系统(AEB)和其他汽车的设计和性能对比;2)与Autopilot 操作模式相关的人机交互...
    文章 2017-08-01 1099浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化