• 如果,你的DNS提供商遭遇DDoS攻击该怎么办

    从网络架构的观点来看,看看DNS服务在你的环境中如何运作,并确定具体的瓶颈点以及故障,包括云服务及业务合作伙伴连接。与你的互联网、托管、云计算和DNS服务提供商进行讨论,并询问他们为减小这种风险他们已经...
    文章 2017-08-01 1143浏览量
  • SQLServer灾难恢复

    打开SQLSERVER联机帮助文件,希望从中得到帮助,但是都没有符合我遇到的这个状况,因为我们的日志备份是晚上进行的,到发生故障时为止,没有经过一次备份。现在已经是21:30分,找到SQL的QQ群,向兄弟们求助,得到的...
    文章 2017-11-15 1115浏览量
  • 十个应对数据中心宕机的措施与方法

    在英国电信公司的失败案例中,其问题的原因是一个断路器发生故障。虽然有人会认为关键设施会避免点失败,但证据表明并不是这样。如今,组织运营数据业务,就必须成为数据中心的行家。组织不但要熟知数据中心的知识...
    文章 2017-10-02 1180浏览量
  • LMAX架构

    业务逻辑处理器处理所有的应用程序的业务逻辑,这是一个线程的Java程序,纯粹的方法调用,并返回输出。不需要任何平台框架,运行在JVM里,这就保证其很容易运行测试环境。Although the Business Logic Processor ...
    文章 2016-04-11 1443浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    3.做扁鹊:在系统发生问题时快速解决问题 2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索性、前瞻性的工作,但SRE不可避免的,会面对很多重复性的工作,所以除了要在组织和机制上...
    文章 2020-10-26 4034浏览量
  • 如何用消息系统避免分布式事务?

    前阵子从支付宝转账1万块钱到余额宝,这是日常生活的一件普通小事,但作为互联网研发人员的职业病,我就思考支付宝扣除1万之后,如果系统挂掉怎么办,这时余额宝账户并没有增加1万,数据就会出现不一致状况了。...
    文章 2016-07-13 5367浏览量
  • 车联网上云最佳实践(二)

    由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many connections错误。...
    文章 2018-08-22 2564浏览量
  • 如何用消息系统避免分布式事务?

    前阵子从支付宝转账1万块钱到余额宝,这是日常生活的一件普通小事,但作为互联网研发人员的职业病,我就思考支付宝扣除1万之后,如果系统挂掉怎么办,这时余额宝账户并没有增加1万,数据就会出现不一致状况了。...
    文章 2015-12-04 23360浏览量
  • 字节跳动 Flink 点恢复功能实践

    这个时候我们通过设置一个定时来做兜底策略,如果没有在定时设置的时间内完成 Channel 的重新初始化,那么该 Task 就会自动下线,走点恢复的 Failover 流程。网络层作为 Flink 内线程模型最复杂的一个模块,...
    文章 2020-09-29 7991浏览量
  • 《架构真经:互联网技术架构的设计原则(原书第2版)...

    但是这里面有个有趣的问题,与有同等数量处理器的较小系统相比,这些更快和更大的机器并非真正能够做更多的工作。以CPU为例,这些机器比较小的系统拥有更少的处理能力。在添加CPU时,每个CPU的工作量比CPU的系统...
    文章 2017-05-02 1234浏览量
  • 分布式事务及其一致性协议

    (3)分区容错性:分布式系统在遇到任何网络分区故障时,都需要能够保证一致性和可用性,除非整个网络都发生故障。2.BASE理论 BASE理论指的是Basically Avaliable(基本可用)、Soft state(软状态)和Eventually ...
    文章 1970-01-01 576浏览量
  • 宜信微服务任务调度平台建设实践

    点,就是没有热备,跑批任务是一个点运行的定时任务,出了故障需要转入手工处理。依赖,利用时间差来处理依赖反复造成问题数据。大家知道项目有的时候是需要有依赖关系的。比如某个项目的跑批流程A和跑批流程B...
    文章 2019-10-22 1802浏览量
  • 秘诀!支付宝支撑双十一4200万次/秒的数据库请求峰值...

    在节点角色上,有几个节点(root service)负责管理集群拓扑结构等全局信息,相对特殊一点,但每个节点都具备承担这个角色的能力,如果当前承担该角色的节点发生故障,集群会自动选举出新的节点承担这个角色。...
    文章 2018-05-10 2643浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    但是我们可以了解Uber的调度系统,怎样实行地理空间索引,怎样规划他们的系统,怎样实行高利用率和怎样处理失败,包括令人惊讶的方式处理数据中心故障,使用驱动的手机作为恢复外部分布式存储系统。在Matt的报告中,...
    文章 2016-03-17 3513浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    但是我们可以了解Uber的调度系统,怎样实行地理空间索引,怎样规划他们的系统,怎样实行高利用率和怎样处理失败,包括令人惊讶的方式处理数据中心故障,使用驱动的手机作为恢复外部分布式存储系统。在Matt的报告中,...
    文章 2017-11-20 1714浏览量
  • 车联网上云最佳实践(一)

    消息队列集群:由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many ...
    文章 2018-08-31 2919浏览量
  • 信息系统项目管理01——信息化和信息系统

    (2)MMTR——平均维护时间,可维护性用此度量,这是系统发生故障后维修和恢复正常花费的平均时间。1.4 软件工程 1 需求 1 好的需求应该具有无二义性、完整性、一致性、可测试性、确定性、可跟踪性、正确性、必要性...
    文章 2020-12-11 115浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-10-25 2946浏览量
  • 2019年美团、滴滴、蘑菇街Java岗9次面试总结

    spark的通信模型,集群发生故障怎么办。spark的执行流程。java中有哪些锁。synchronized为什么是重量级锁。如果工作中提出不合理的需求你会怎么办。怎么看待加班。实习时间。过了几天面试官说面试通过,过几天老板...
    文章 2019-07-24 1653浏览量
  • 《解读NoSQL》——2.6 通过数据库分片获得水平扩展...

    图2-9 当单个处理器不能很好地胜任系统的吞吐量需求时,就需要执行分片操作。当发生分片时,你会希望数据被移动到两个系统中,而每个系统负责原来一半的工作。许多NoSQL系统内建了自动分片功能,你只需将一台服务器...
    文章 2017-05-02 1666浏览量
  • 【杭州云栖】阿里云高级技术专家刘廷伟:全球CDN服务...

    比如节点故障的隔离,如果1500个节点,有1000个节点监测出问题了,怎么办?自动化处理下线修复?那剩下的500个节点就被流量打爆了。一定要给自动化安个熔断,做到可控的自动化。一个是自动化穷举的问题,你不可能...
    文章 2018-09-21 3853浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-06-19 2145浏览量
  • 大众点评开源分布式监控平台 CAT 深度剖析

    当某个报表处理器处理来不及时候,比如Transaction报表处理比较慢,可以通过配置支持开启多个Transaction处理线程,并发消费消息。2、实时分析 CAT服务端实时报表分析是整个监控系统的核心,CAT重客户端采集的是是...
    文章 2016-11-15 2233浏览量
  • 打造应用全栈监控:ARMS 最佳实践

    ARMS作为业务的实时监控系统,可以帮助用户定位从前端到应用的普遍问题,以及利用全系排查解决点问题定位。本文利用案例演示,更直观的为大家介绍ARMS是怎么帮助用户快速的定界和定位的。让天下没有难定位的问题是...
    文章 2018-05-31 1936浏览量
  • 带你读《并发模式与应用实践》之一:并发简介

    图1-4显示如何通过并发复制输入流来防止从节点发生故障。这种模式通常用于Apache Kafka、Apache Cassandra和许多其他系统。图1-4的右侧显示数据流被复制给冗余的机器。在任何一个节点出现故障(硬件故障)的情况下,...
    文章 2019-11-04 1250浏览量
  • Redis夺命连环11问

    此时将会发生故障转移,优先从复制数据较多的从节点选择一个成为主节点,并且接管下线节点的slot,整个过程和哨兵非常类似,都是基于Raft协议做选举。了解Redis事务机制吗?redis通过MULTI、EXEC、WATCH等命令来实现...
    文章 2021-03-05 781浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性和...
    文章 2018-05-15 2559浏览量
  • 《银行的一天》演示日志处理保序、不丢、不重

    从这个例子可以看到,存取款是一个严格有序的操作,需要同一个柜员(处理器)来处理同一个用户的操作,这样才能保持状态一致性。实现保序的方法很简单:排队,创建一个Shard,终端只有一个柜员A来处理。用户请求先进...
    文章 2016-08-24 10733浏览量
  • 阿里内核月报:2017年05月

    会上提出了很多 concern,主要包括安全性和稳定性,所谓访问范围扩大化,当然给了黑客更多的机会,另外是否会引起故障扩大化。另外,Mellanox 和 Broadcom 也都有类似的产品,还可以研究下 Yosemite platform译:这些...
    文章 2017-06-08 2135浏览量
  • OceanBase创始人阳振坤:什么是面向未来的数据库?

    但最近这些年情况发生了变化,原来由同一个关系数据库做的 OLTP 和 OLAP 这两件事情变成了由两个系统来做:关系数据库分库分表继续做在线交易处理,数据仓库则做商业智能分析即在线分析处理。为什么会出现这样的情况...
    文章 2019-11-27 764浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化