• 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统故障的数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4739浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性和...
    文章 2018-05-15 1515浏览量
  • 彻底厘清真实世界中的分布式系统

    讨论故障容忍(fault-tolerant)系统时,很重要的一点是把拜占庭故障(实质上就是任意的故障)考虑在内。此类故障包括但不限于:试图破坏系统的攻击。例如,一次安全攻击可能会生成或者伪造消息。拜占庭将军问题是两...
    文章 2017-09-22 1510浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性和...
    文章 2018-05-15 2616浏览量
  • 饿了么分布式服务治理及优化经验

    如果线上发生了一个故障,比如交换机发生故障,影响到某个业务,但是业务报警没有报出来,那业务要承担连带责任,因为你没有报警出来。报警最常见的基于阈值,阈值这件事情比较痛苦,我们有很多指标,但这个阈值怎么...
    文章 2017-11-15 903浏览量
  • Oracle Data Recovery Advisor(DRA)数据恢复顾问

    换句话说,一个非归档、无备份、无冗余配置的数据库,有致命错误发生的时候,DRA也是无能为力的。 这也就是说,备份还是要做。我们首先在实验前,进行一个完整备份。选择Oracle 11g进行实验,开启归档...
    文章 2017-07-24 2305浏览量
  • 100个为什么让你了解分布式光伏发电

    29、如果电网停电或发生其他故障,分布式能正常运行吗?电网停电后,分布式光伏发电系统一般都会退出运行,不能正常发电,但在某些极端情况下可能会出现孤岛现象,即电网停电后分布式发电系统仍然带着部分负荷继续...
    文章 2017-07-03 2378浏览量
  • 《架构真经:互联网技术架构的设计》水平扩展

    两台设备被配置成高可用性(HA)模式,供应商声称这种配置允许服务在故障发生时可以无缝转移。不幸的是,ZirMed的产品在会话期间依赖状态,并且会话状态无法在一对防火墙之间做优雅失败的平滑配置。克里斯继续说,...
    文章 2017-05-19 2613浏览量
  • 《架构真经:互联网技术架构的设计原则(原书第2版)...

    两台设备被配置成高可用性(HA)模式,供应商声称这种配置允许服务在故障发生时可以无缝转移。不幸的是,ZirMed的产品在会话期间依赖状态,并且会话状态无法在一对防火墙之间做优雅失败的平滑配置。克里斯继续说,...
    文章 2017-05-02 1240浏览量
  • 信息系统项目管理01——信息化和信息系统

    (2)MMTR——平均维护时间,可维护性用此度量,这是系统发生故障后维修和恢复正常花费的平均时间。1.4 软件工程 1 需求 1 好的需求应该具有无二义性、完整性、一致性、可测试性、确定性、可跟踪性、正确性、必要性...
    文章 2020-12-11 118浏览量
  • 高效运维之员工的四大误区及解决之道

    各种情况都可能有,除非有智能监控,故障自愈系统,或者责任人有丰富的处理经验,否则运维部门所有工种,都应该主动去排查自己负责的部分是否有异常,并协助相关同学分析解决。2.3.3 部门内部工作靠后 如果手头有多...
    文章 2016-06-09 2926浏览量
  • 高德服务单元化方案和架构实践

    发生单元故障进行切流时,主要分为四步骤 打开单元禁写(跨单元写不敏感业务可以不配置) 检查业务延时 切换预案 解除单元禁写 PS:更新路由表时,也需要上述操作,只是第3步的切换预案变成切换新版本路由表;单元禁...
    文章 2019-11-25 8059浏览量
  • Elasticsearch 全观测技术解析与应用(四):ES全观测...

    工作开发中日志是免不了的,它一般包含几个重要信息,比如发生时间、发生模块和详细信息等。指标数据 指标可以理解为文本日志的高级抽象,主要用来记录数值类型的数据,如CPU、内存图、磁盘等。告警通知 在日志和...
    文章 2020-12-17 597浏览量
  • OceanBase数据库创始人阳振坤分享征战6088万tpmC的...

    2000年伊始,随着互联网的发展,业务系统对数据库的需求发生了很大的变化。在过去,传统的数据库并发访问量从几百到几千。进入互联网时代后,并发访问量骤增,达到百万至千万的级别。越来越多的公司发现根据现有的...
    文章 2019-10-23 3940浏览量
  • OceanBase创始人阳振坤:什么是面向未来的数据库?

    但最近这些年情况发生了变化,原来由同一个关系数据库做的 OLTP 和 OLAP 这两件事情变成了由两个系统来做:关系数据库分库分表继续做在线交易处理,数据仓库则做商业智能分析即在线分析处理。为什么会出现这样的情况...
    文章 2019-11-27 887浏览量
  • OceanBase创始人阳振坤:什么是面向未来的数据库?

    但最近这些年情况发生了变化,原来由同一个关系数据库做的 OLTP 和 OLAP 这两件事情变成了由两个系统来做:关系数据库分库分表继续做在线交易处理,数据仓库则做商业智能分析即在线分析处理。为什么会出现这样的情况...
    文章 2019-11-29 1691浏览量
  • 《架构真经:互联网技术架构的设计原则(原书第2版)...

    此外,该公司重视由多租户模式所带来的成本效益,尽管他们沿着客户边界创建故障隔离区,但是他们仍然为不需要完全隔离的较小客户设计解决方案,使这些客户可以在数据管理系统(DBMS)内利用多租户系统。最后,该公司...
    文章 2017-05-02 1456浏览量
  • 《架构真经:互联网技术架构的设计》分而治之

    此外,该公司重视由多租户模式所带来的成本效益,尽管他们沿着客户边界创建故障隔离区,但是他们仍然为不需要完全隔离的较小客户设计解决方案,使这些客户可以在数据管理系统(DBMS)内利用多租户系统。最后,该公司...
    文章 2017-05-19 4334浏览量
  • 救火必备!问题排查与系统优化手册

    用这样的方式,采集和汇总后就能得到服务总的可用/不可用比例(服务时长 or 服务次数),以此来监测和量化一个系统的稳定性。可是,通过什么来定义某个服务当前是否可用呢?这一点确实跟业务相关,但大部分同类业务...
    文章 2020-07-13 2196浏览量
  • 9月最新184道阿里、百度、腾讯、头条Java面试题合集

    JVM的内存结构,Eden和Survivor比例。JVM内存为什么要分成新生代,老年代,持久代。新生代中为什么要分为Eden和Survivor。36.JVM中一次完整的GC流程是怎样的,对象如何晋升到老年代,说说你知道的几种主要的JVM参数...
    文章 2019-09-06 2872浏览量
  • 【杭州云栖】阿里云高级技术专家刘廷伟:全球CDN服务...

    比如节点故障的隔离,如果1500个节点,有1000个节点监测出问题了,怎么办?自动化处理下线修复?那剩下的500个节点就被流量打爆了。一定要给自动化安个熔断器,做到可控的自动化。一个是自动化穷举的问题,你不可能...
    文章 2018-09-21 3936浏览量
  • 论程序的健壮性——就看Redis

    我们不是直接去获取Redis主服务的地址,而是根据sentinel去自动获取谁是主机,即使主机发生故障后我们也不用改代码的连接!小结:有了“哨兵模式”只要集群中有一个Redis服务器还健康存活,哨兵就能把这个健康的...
    文章 2020-09-16 912浏览量
  • 当技术宅遇上技术债:你见,或者不见 债就在那里

    技术体系是为业务服务的,但不能仅凭业务需求驱动,需要分配一定比例的资源还债、优化、创新。以上说法主要是被动式的,主动的预防也很重要,而且预防是多方面的。1.招聘能力符合要求,踏实做事的人才,维持团队稳定...
    文章 2016-06-18 2538浏览量
  • Spring Cloud Alibaba 七天训练营(五)服务熔断和限...

    手段包括信号量隔离、异常比例降级、RT 降级等多种手段。当系统长期处于低水位的情况下,流量突然增加时,直接把系统拉升到高水位可能瞬间把系统压垮。这时候我们可以借助 Sentinel 的 WarmUp 流控模式控制通过的...
    文章 2020-09-28 17396浏览量
  • 高效运维之运维2.0:危机前的自我拯救

    其中“专业”的意思,包括减少故障发生次数,缩短故障时长(有公司甚至进一步提出,“不以故障多为耻,以恢复快为荣”),少犯人为事故,个人技术进步服从业务要求(少搞自研、多用开源)等。另外,“热情、方便、快...
    文章 2016-06-10 3592浏览量
  • 选型宝访谈:当超融合一体机,具备云计算的基因,将会...

    大家可以看到24个3.5寸的大盘,这使得我们的存储容量和性能之间可以获得一个非常好的平衡,业界很多的超融合产品都使用2.5寸的小盘,ECS Stack没有这么选择,我们选择了3.5寸大盘,很多朋友会问那你的性能怎么办?...
    文章 2019-08-15 1069浏览量
  • 毕业10年才懂,会升层思考,工作有多轻松?

    或者现在的架构上迭代需求故障和bug的情况是怎么样的,评估一下重构之后故障和bug率会降低到多少。只要现状和目标有一个没清晰,那我们就很难判断出问题的严重程度在哪里。FBI warning:如果你不能确定问题的严重...
    文章 2019-12-06 15087浏览量
  • 毕业10年才懂,会升层思考,工作有多轻松?

    或者现在的架构上迭代需求故障和bug的情况是怎么样的,评估一下重构之后故障和bug率会降低到多少。只要现状和目标有一个没清晰,那我们就很难判断出问题的严重程度在哪里。FBI warning:如果你不能确定问题的严重...
    文章 2019-12-06 1051浏览量
  • 独家|一文读懂Hadoop(二)HDFS(上)

    在此阶段namenode搜集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的,在一定比例的数据块被认为是安全的以后(可设置),再过若干时间,安全模式结束;当检测到副本数不足数据块时,该块...
    文章 2017-08-01 1504浏览量
  • 万字长文丨1分36秒,100亿,支付宝技术双11答卷:没有...

    技术人难道真的相信求神拜佛能避免系统故障和bug吗?“心理上,我觉得还是挺有用的。陈亮说,“主要是表达对于不可预知之物的一种敬畏。虽然我们已经做了多年技术,但技术的道路上还是充满了很多不可预知的东西。不...
    文章 2019-11-11 8052浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化