• 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统故障的数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4739浏览量
  • 超融合架构如何抹平物理硬件差异?

    故障与业务的隔离方面,在故障恢复过程中优先保证数据的恢复,可以通过配置满足调整故障恢复I/O与业务I/O的占比。在这个快速变化的时代,业务的数量和类型也正在快速改变,一个卖点事件就可能爆发一个业务。正因如此...
    文章 2017-08-02 1177浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    这样一来,如果网络确实是组织的循环系统,SDN可以让其更智能、灵活且适应性更强。SDN分析则更是如此。SDN是动态的,有反馈的 如今智能是非常必要的。网络已经成为真正的关键任务,且其复杂急需更好的情报用以操作。...
    文章 2017-07-03 936浏览量
  • 【智驾深谈】特斯拉死亡事故官方洗白,业界被判死缓...

    4)司机最后被记录的车内操作行为是将巡航控制系统的设定速度提升到74英里每小时,此时离撞车不到两分钟。车祸发生在一个晴朗的日子,且道路条件为无湿滑。2016年6月21日,NHTSA 成立了一个专门调查小组,对发生车祸...
    文章 2017-08-01 1103浏览量
  • 车联网上云最佳实践(二)

    由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many connections错误。...
    文章 2018-08-22 2618浏览量
  • 阿里、万国、XDC+数据中心建设经验分享

    其次将数据中心所有的系统做到了标准化,每个数据中心软件是恒定的,每当总控制系统进行软件升级的时候,对它控制逻辑进行升级的时候,会同步升级到每一个数据中心的控制系统,来保障整体系统的软件版本始终是统一的...
    文章 2017-08-01 1759浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    这样一来,如果网络确实是组织的循环系统,SDN可以让其更智能、灵活且适应性更强。SDN分析则更是如此。SDN是动态的,有反馈的 如今智能是非常必要的。网络已经成为真正的关键任务,且其复杂急需更好的情报用以操作。...
    文章 2017-08-01 752浏览量
  • 饿了么分布式服务治理及优化经验

    如果线上发生了一个故障,比如交换机发生故障,影响到某个业务,但是业务报警没有报出来,那业务要承担连带责任,因为你没有报警出来。报警最常见的基于阈值,阈值这件事情比较痛苦,我们有很多指标,但这个阈值怎么...
    文章 2017-11-15 903浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    3.做扁鹊:在系统发生问题时快速解决问题 2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索性、前瞻性的工作,但SRE不可避免的,会面对很多重复性的工作,所以除了要在组织和机制上...
    文章 2020-10-26 4841浏览量
  • 阿里云新品发布会周刊第53期 丨 数据泄露的危害有多大...

    OceanBase是100%研的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创’三地五中心’城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了6100万次/秒处理峰值的业内纪录,在...
    文章 2020-05-16 269浏览量
  • 阿里云新品发布会周刊第53期 丨 数据泄露的危害有多大...

    OceanBase是100%研的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创’三地五中心’城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了6100万次/秒处理峰值的业内纪录,在...
    文章 2020-05-16 1905浏览量
  • 一个复杂系统的拆分改造实践

    全量数据迁移务必要在业务低峰期时操作,并根据系统情况调整并发数;3)增量同步。全量迁移完成后可使用binlog增量同步工具来追数据,比如阿里内部使用精卫,其它企业可能有自己的增量系统,或者使用阿里开源的...
    文章 2017-01-04 7725浏览量
  • 选型宝访谈:当超融合一体机,具备云计算的基因,将会...

    我们的监控中心会持续的监控整个微服务控制平面,哪一个微服务或者哪一组微服务出现问题了,会自动告警,并触发愈中心里的愈知识库,这个愈知识库帮你做判断,并把这些出了问题的微服务做自动的修复或者自动的...
    文章 2019-08-15 1069浏览量
  • Spring Cloud Alibaba 七天训练营(五)服务熔断和限...

    Sentinel 是阿里巴巴开源的,面向分布式服务架构的高可用防护组件,主要以流量为切入点,从流量控制、流量整形、熔断降级、系统自适应保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。Sentinel 承接了阿里...
    文章 2020-09-28 17396浏览量
  • 车联网上云最佳实践(一)

    消息队列集群:由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many ...
    文章 2018-08-31 2947浏览量
  • 100个为什么让你了解分布式光伏发电

    29、如果电网停电或发生其他故障,分布式能正常运行吗?电网停电后,分布式光伏发电系统一般都会退出运行,不能正常发电,但在某些极端情况下可能会出现孤岛现象,即电网停电后分布式发电系统仍然带着部分负荷继续...
    文章 2017-07-03 2378浏览量
  • Apache Flink 在快手的过去、现在和未来

    如果出现了一个节点故障,比如 node3 发生故障了。Flink 引擎会重新从 YARN 申请资源,完成 TaskManager 初始化,并重新部署作业。我们对一个业务作业做了一个分析,发现宕机故障后到作业恢复,共需要 90s 的时间。...
    文章 2021-02-26 1083浏览量
  • 阿里集团搜索中台TisPlus

    即可快速完成系统性能压测,在极大提升了压测实施效率的同时也使TisPlus平台只能从大促压测演化到日常化压测变成了可能,而进一步有了日常化压测的数据的产出也为容量预估平台动态调整资源进行成本优化提供了数据...
    文章 2018-01-26 6897浏览量
  • 微服务与配置中心:别让您的微服务被配置管理“绊”了...

    在面向分布式的微服务系统中,如何通过更高效的配置管理方式,帮助微服务系统架构持续“无痛”的演进,动态调整控制系统的运行时飞行姿态,值得我们好好的在配置管理上重新思考和设计。正文 我的这个话题只能算是...
    文章 2018-02-12 7393浏览量
  • [QCon讲稿实录]谈高质量架构产品化输出

    尤其是去年发生了多起IDC故障,用户对高可靠系统架构的需求格外高。所以针对这种情况,我们又推出了EWS服务,目的让用户能够简单的获取高质量架构的能力。首先来看一下EWS 的业务架构,EWS的全称是Enterprise ...
    文章 2016-04-25 5208浏览量
  • PostgreSQL 数据库初体验

    这个方案我没用过,我觉得vote宕机后,主备的架构可能不会改变,也许业务不会受影响,只是在故障发生的时候可能会导致切换问题,这是我的理解。问: 运维的时候,PG HA是一个可靠性是个很关键的因素。我们这边使用的...
    文章 2017-05-02 2369浏览量
  • 调度策略的测试方法及其自动化

    ※需要有重查架构,即1个前端连接2个后端——因为在这种架构下,前端才会重查后端,而前端重查时很多调度策略都会发生变化;※被测模块需要连接多层后端,每层有多台——因为只连接1层、1台的话,很多调度策略...
    文章 2017-11-23 955浏览量
  • 【杭州云栖】阿里云高级技术专家刘廷伟:全球CDN服务...

    比如节点故障的隔离,如果1500个节点,有1000个节点监测出问题了,怎么办?自动化处理下线修复?那剩下的500个节点就被流量打爆了。一定要给自动化安个熔断器,做到可控的自动化。一个是自动化穷举的问题,你不可能...
    文章 2018-09-21 3936浏览量
  • 关于分布式系统的数据一致性问题

    这个方案还存在什么问题,假设订单系统在调用支付系统冻结的时候,支付系统冻结成功,但是订单系统超时,这个时候返回给用户,告知用户支付失败,如果用户再次支付这笔订单,那么由于支付系统进行控制,告诉订单系统...
    文章 2016-12-23 1069浏览量
  • 【双11背后的技术】万亿交易量级下的秒级监控

    对于第一点,只要发生混合,无论你怎么调整线程池参数,都会导致各式各样的问题。线程调的多,会导致某些时刻多线程抢占CPU,load飙高;线程调的少,会导致某些时刻所有线程都进入阻塞等待,堆积如山的活儿没人干。...
    文章 2017-01-12 5527浏览量
  • 作为开发者,视频的生产、分发和消费三大环节,你该...

    第三,稳定可靠,避免故障等情况的发生;第四,可扩展性,随业务增长具有可扩展能力。在视频传输分发这一环节,阿里视频云又是怎么保证高覆盖、高稳定的呢?从传输地区覆盖方面来看,依托阿里云CDN的1200+全球节点,...
    文章 2017-10-17 2783浏览量
  • concepts阅读总结4——事务

    如果系统中的故障暂时无法恢复,Oracle允许数据库 DBA 在本地手工地提交(commit)或撤销(undo)此故障导致的不可信的分布式事务(in-doubt distributed transaction)。这个功能使本地的 DBA 可以释放被不可信的...
    文章 2011-12-18 1157浏览量
  • DB2 的REORG_学习(2)_表重组

    例如,如果发生故障时进行恢复比性能更重要,那么最好使用联机重组方法。脱机重组的优点 此方法具有下列优点: 最快速的表重组操作,未包括大对象(LOB)或长字段数据时尤其如此 完成后将生成集群情况完美的表和索引 ...
    文章 2017-06-28 1956浏览量
  • 救火必备!问题排查与系统优化手册

    你应该做的:上面已经提了很多,这里再补充一点:性能优化与做功能需求一样,都是为业务服务的,因此优化时千万不要忙着嗨,一定要结合目标需求和应用场景 —— 也许这块你想做的优化,压根线上就碰不到;...
    文章 2020-07-13 2196浏览量
  • 腾讯最赚钱的部门是怎么做运维的?

    因为大家知道游戏行业,有些游戏类道具非常值钱,说不准哪个同学手一抖给自己加个几十万,所以我们成立了内部安全团队,做安全监控,其中也包括权限控制,大家都知道,自动化系统权限控制非常重要,如果这个没控制好...
    文章 2017-05-02 2127浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化