• 云计算系统测试技术基础

    2010年2月23 日,Google Gmail出现故障持续时间长达两个小时,这次故障导致全球数以百万计的用户在几小时内无法访问账户,经济损失无法估量,由于此次服务器故障,Google将针对企业的Google Apps高级版订户的...
    文章 2017-08-02 1407浏览量
  • MySQL高可用方案MHA的一些总结和思考

    MHA Manager是一个核心的调度器,有了它可以调度多套环境,当然MHA Manager自身也有单点,所以会考虑两套MHA Manager节点来做冗余,实际上是做交叉互备,比如有100套环境,两个MHA Manager节点,那就每个分50个节点...
    文章 2017-10-31 1424浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    分布式系统常见依赖故障治理及技术演进 首先抛一个问题,什么情况下你会认为淘宝网挂了?我相信关注这个问题的人很多,不过能给出确切答案的人并不多。因为这个看似简单的问题,真要回答起来好像也不是那么容易。...
    文章 2017-06-19 3863浏览量
  • “后红海”时代,大数据体系到底是什么?...

    常见的集群调度架构有:●中心化调度架构:早期的Hadoop1.0的MapReduce、后续发展的Borg、和Kubernetes都是中心化设计的调度框架,由单一的调度器负责将任务指派给集群内的机器。特别的,中心调度器中,大多数系统...
    文章 2021-10-28 21浏览量
  • 自动化运维Kubernetes

    持续集成(CI)工作流程是不同的用户和项目拥有其各自不同的需求和表现的地方。所以,Kubernetes 支持分层 CI 工作流程,却并不监听每层的工作状态。允许用户自行选择日志、监控、预警系统。(Kubernetes 提供一些集成...
    文章 2018-12-18 4028浏览量
  • 虚拟化系列-VMware vSphere 5.1 高可用性

    使用vSphere,可以独立于硬件、操作系统和应用程序提供更高可用性,减少常见维护操作的计划停机时间,在出现故障时提供自动恢复。vSphere 可以减少计划的停机时间,防止出现非计划停机,并迅速从断电中恢复。一、...
    文章 2017-11-16 1164浏览量
  • 微服务转型,雪崩效应是绕不过的一道坎

    熔断器正好适合这种场景:当请求失败比率(失败/总数)达到一定阈值后,熔断器开启,并休眠一段时间,这段休眠期过后熔断器将处与开状态(half-open),在此状态下将试探性的放过一部分流量(Hystrix只支持single ...
    文章 2017-09-04 2244浏览量
  • 带你读《弹性计算—无处不在的算力》第三章:计算产品...

    3.2.5 Guest OS Guest OS 作为运行在虚拟机云...以确保在软硬件故障发生时可以正确地被检测到&xff0c;并且及时报告&xff0c;操作系统的错误处理程序会正确地处理错误&xff0c;以防止出现数据损坏&xff08;Data Corruption&...
    文章 2021-10-13 33浏览量
  • 棋牌游戏DDoS防御细谈

    阿里云:游戏行业DDoS态势报告(2017年上半年)中提出,90%的在被攻击的3天后业务就会彻底下线,持续攻击2-3天后业务的不稳定会导致客户流失90%以上,而攻击的日损失会在百万元以上!尤其是棋牌行业,由于同质化竞争...
    文章 2018-01-04 3189浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    JVM(Java虚拟机)在运行过程中会产生很多停顿,常见的有GC、JIT、取消偏向锁(RevokeBias)、RedefineClasses(AOP)等。对应用程序影响最大的则是GC停顿。RocketMQ尽量避免Full GC,但Minor GC带来的停顿是难以...
    文章 2017-02-07 7210浏览量
  • 为MySQL选择合适的备份方式

    备份方式各有千秋,而对我们来说,面对数千实例,选择合适的备份工具来实现统一配置、统一规划,构建智能调度的备份云平台才是王道。毕竟,多种备份方式共存的运维成本是不容忽视的。从使用经验来看,用Xtrabackup全...
    文章 2017-07-03 2876浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    JVM(Java虚拟机)在运行过程中会产生很多停顿,常见的有GC、JIT、取消偏向锁(RevokeBias)、RedefineClasses(AOP)等。对应用程序影响最大的则是GC停顿。RocketMQ尽量避免Full GC,但Minor GC带来的停顿是难以...
    文章 2017-01-12 5774浏览量
  • 阿里巴巴飞天大数据平台MaxCompute...持续更新20200109)

    DataWorks 增强SQL 编辑器功能DataWorks新手引导(持续更新)跨私网传输用法解析DataWorks中业务日期和定时时间的理解PostGreSql里的列为JSON类型同步到MaxComputeDataWorks中如何将调度资源共享解析Dataworks中的运行...
    文章 2017-05-05 119662浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    SRE模型是Google对Dev+Ops模型的一种实践和拓展(可以参考《Google运维解密》一书),SRE这个概念我比较喜欢,因为这个词不简单是两个概念的叠加,而是一种对系统稳定性、高可用、团队持续迭代和持续建设的体系化...
    文章 2020-10-26 5354浏览量
  • 阿里集团搜索中台TisPlus

    第一个阶段我们走了将近10年的时间,一直到现在我们仍然还在持续优化和打造世界级的搜索技术生态。但如今的阿里集团并不鼓励一杠子到底的小闭环的重复建设,而是鼓励技术体系中台化,所以搜索事业部去承载整个集团的...
    文章 2018-01-26 7043浏览量
  • 如何打造渐进式可扩展、高生产力的前端研发平台

    流水线调度异常,这一般会很少见,只会出现在服务器故障、重启等场景才会发生。对于前者,我们在流水线节点设计了 stageError 函数,它会在节点出错时被调用,这允许流程开发者可以自行决定错误处理逻辑。而调度异常...
    文章 2021-08-11 71浏览量
  • 《Storm企业级应用:实战、运维和调优》——1.1 什么...

    可以认为是Twitter Storm的Java版本,用户按照指定的接口实现一个任务,然后将这个任务递交给JStorm系统,JStorm会启动后台服务进程7×24小时运行,一旦某个Worker发生故障调度器立即分配一个新的Worker替换这个...
    文章 2017-07-03 2283浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    专家经验是基于案例库和知识库抽象出来的各种逻辑规则,比如ECS启动失败原因可能是库存原因、调度原因、块存储、控制侧异常、Guest OS启动异常、底层虚拟化异常等。专家决策和决策树会依次排查可能的原因,下图中每...
    文章 2020-10-28 3610浏览量
  • Storm概念学习系列之什么是实时流计算?

    这是因为 Hadoop MapReduce 框架为批处理做了高度优化,典型的是通过调度批量任务来操作静态数据,任务不是常驻服务,数据也不是实时流入;而数据流计算的典型范式之一是不确定数据速率的事件流流入系统,系统处理...
    文章 2017-12-18 1549浏览量
  • 淘宝直播技术分享:如何打造体验优秀的“直播+”产品...

    根据TCP拥塞窗口做智能调度,当拥塞窗口过小说明丢包率过高,需要切换节点和故障排查 增加上行、下行带宽探测接口,当带宽不满足时降低视频质量,即降低码率 通过这些优化手段,能够做到95%的直播点击后在900ms以内...
    文章 2016-11-08 5202浏览量
  • 每秒8.8亿次请求!让数据存得起,看得见-云原生多模...

    技术上:Lindorm持续进行可用性改造和演练,利用数据多内存副本能力,在故障发生时进行自动容灾切换。双机房最终一致场景实现10秒内自动容灾,三机房强一致场景实现30s自动恢复。针对用户经常出现的大请求,分区倾斜...
    文章 2020-11-25 2426浏览量
  • 淘宝直播技术分享:如何打造体验优秀的“直播+”产品...

    根据TCP拥塞窗口做智能调度,当拥塞窗口过小说明丢包率过高,需要切换节点和故障排查 增加上行、下行带宽探测接口,当带宽不满足时降低视频质量,即降低码率 通过这些优化手段,能够做到95%的直播点击后在900ms以内...
    文章 2016-11-03 4398浏览量
  • 存的起,看得见—云原生多模数据库Lindorm技术解析

    作为面向大数据场景的结构化、结构化存储系统,Lindorm已经在阿里发展了近十年,并始终保持着快速的能力更新和技术升级,是目前支撑阿里经济体业务的核心数据库产品之一。在过去的岁月,伴随着经济体内部对于海量...
    文章 2020-10-22 3513浏览量
  • 2.0解析系列|一文详解新一代OceanBase云平台

    然而,对于大多数企业级客户,有些是租用第三方机房,有些不具备三机房条件,基础网络的可靠性也不高,延时不稳定,开源产品运行故障率很高,OCP的SLA无法得到保证。2.业务的变化 众所周知,阿里双十一所面临的高...
    文章 2018-10-10 1904浏览量
  • MapReduce论文中文翻译

    每个工作(job)都包含一系列的任务(task),调度系统将这些任务调度到集群中多台可用的机器上。执行概括 通过将Map调用的输入数据自动分割为M个数据片段的集合,Map调用被分布到多台机器上执行。输入的数据片段...
    文章 2015-03-18 2741浏览量
  • “MapReduce:Simplified Data Processing on Large ...

    例如,在一次MapReduce操作期间,运行系统上的网络维护导致了一组约80台机器在同一时间无法访问,持续了数分钟。MapReduce主节点只是简单的重执行了已由无法访问的机器完成的任务,并继续向前执行,最终完成了这次...
    文章 2017-11-10 1127浏览量
  • 饿了么技术往事(下)

    后面很多看起来轻而易举的事情 —— 午高峰线上故障容灾、全面上云、全站底层容器及调度系统的升级等等 —— 没有这次架构演进将会很艰难。体会和教训: 多数据中心——多数据中心核心解决高可用诉求和容量带来的...
    文章 2020-11-26 4953浏览量
  • 蚂蚁集团技术风险代码化平台实践(MaaS)

    底层 sigma 支持的 pod 调度的最小规模是 0.5c(底层物理网卡等等限制),如果 2 台容灾,基本上一个函数至少占用 1c 的物理资源,随着函数业务的大规模使用,这块成本是很难持续的。通过我们的观察,绝大多数函数...
    文章 2021-10-13 151浏览量
  • 喧哗的背后:Serverless 的概念及挑战

    本文中我们看到 Serverless 的演进对应用架构,到持续交付,服务治理、运维监控都提出了新的要求,其实除此之外,Serverless 也会对计算存储网络等更底层的技术设施提出更高的响应能力要求。因此,这其实是一次贯穿...
    文章 2020-06-16 193浏览量
  • 相关实践|《阿里云存储白皮书》第三章

    故障切换:当出现区域级重大故障,可以将业务和数据切换到灾备区域,保障服务连续性。8、数据湖存储解决方案 8.1需求背景 数据湖已经不是一个新概念,在提出的初期也有不少人对数据湖和传统的数仓之间的关系感到困惑...
    文章 2020-07-16 1396浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化