• 关于

    多故障可测系统工作原理

    的搜索结果
  • 谷歌架构的转变:从单数据中心到故障转移系统,再到多宿主架构

    运行单数据中心的系统很有难度,那么设想一下切换到双数据中心吧,假设你需要对多个位于不同地理位置的数据中心提供支持。谷歌有一篇发人深思的优秀论文,其中对这一过程有所描述——“大规模高可用性:打造谷歌的广告数据基础设施”。 文中的主要观点是:在将单个数据中心切换到多个数据中心时,典型的故障转移架构在实...

    文章 青衫无名 2017-07-03 842浏览量

  • 好玩又实用,阿里巴巴开源混沌工程工具 ChaosBlade

    减少故障的最好方法就是让问题经常性的发生。在可控范围或环境下,通过不断重复失败过程,持续提升系统的容错和弹性能力。 那么,实施一次高效的混沌工程实验,需要几步呢? 答案:2 步。 ① 登陆 ChaosBlade ② 下载 release 版本,打造故障演练专属工具 高可用架构是保障服务稳定性的核...

    文章 中间件小哥 2019-03-28 11999浏览量

  • 阿里高可用架构建设实践经验

    本文始发于:云栖社区时间:2020-06-02原文链接:https://yq.aliyun.com/articles/763336 1 背景 随着业务在线化互联网化的高速发展,企业对核心业务系统的稳定性、可靠性、有效性、业务连续性等有了更高的要求。采用高可用系统架构支持重要系统、为关键业务提供7x...

    文章 SRE团队技术小编-小兰 2020-08-31 530浏览量

  • 大促场景系统稳定性保障实践经验总结

    每到双11,如何保障系统高峰扛得住、长期平稳是每个大促人必须面对的问题。在今年双11之前,阿里云在上海举办了一场线下交流,阿里大促和稳定性保障负责人、中间件专家、解决方案专家等将历年总结的大促经验分享给参会嘉宾,我们选取了其中的精彩内容整理如下。 一、互联网行业稳定性建设的观察与思考 第一位分...

    文章 中间件小哥 2020-11-12 2938浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸多有代表...

    文章 技术小能手 2017-06-19 3321浏览量

  • 新型可扩展的数据保护方式——擦除编码

    一、概述   在之前存储系统中,一般都采用RAID技术来对数据进行保护,一旦阵列中某块硬盘损坏,可通过RAID技术所形成的镜像来对丢失数据进行恢复。但随着海量数据问题的出现,RAID越来越难发挥其作用。如采用2TB的硬盘作为存储介质,某块硬盘故障,使用镜像对其进行恢复,大概需要4个小时,而这还是将...

    文章 天色渐晚 2015-10-08 1017浏览量

  • 《linux集群应用实战》视频课程免费观看啦,附PPT下载!

    说在前面的话             计划做这个视频是从去年开始的,本来以为很简单的事情,做起来却是异常的困难,做完这套视频,我总结出了一个道理:技术人员能把一项技术完成,仅能得及格分,如果能把操作过程写下来,能得70分,而如果能做好、能写出来,并且清晰的讲给大家听,那才可以得满分。我做视频的经验...

    文章 技术小甜 2017-11-08 772浏览量

  • 如何将机器学习应用于预测性维护?

    云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 通过使用机器学习,结合从工业物联网(IIOT)设备收集的数据,可以改进流程、降低成本并提高效率。 预测性维护应用数据和模型来预测设备或资产何时发生故障。这种方法可以通过预测故障,来帮助公司主动解决...

    文章 云栖号资讯小哥 2020-06-10 250浏览量

  • 空气流量传感器原理解析

    空气流量传感器(也称空气流量计)是电喷发动机的重要传感器之一。它将吸入的空气流量转换成电信号送至电控单元(ECU),作为决定喷油的基本信号之一,是测定吸入发动机的空气流量的传感器。 概述 电子控制汽油喷射发动机为了在各种运转工况下都能获得最佳浓度的混合气,必须正确地测定每一瞬间吸入发动机的空气...

    文章 行者武松 2017-07-03 2941浏览量

  • 应用高可用 AHAS 一键提升云上的业务可用性

    在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。 近日,阿里云高可用服务 AHAS 正式商用,提供限流降级、架构可视化、故障注入,可一键提升应用可用性,我们邀请了阿里巴巴高可用架构团队高级开发工程师云寅分享: 直播报名地...

    文章 中间件小哥 2019-07-04 11314浏览量

  • Windows 2012 R2 操作系统搭建DHCP-HA集群

    Windows 2012 R2 操作系统搭建DHCP-HA集群           目录 一、DHCP故障转移集群介绍 2 1.1工作原理 2 1.2工作模式以及使用场景 2 二、实验目的 3 三、实验原理 3 3.1实验拓扑 3 3.2实验环境设备 3 3.3 实验检测方式 4 四、配置步骤 5...

    文章 科技小能手 2017-11-12 1941浏览量

  • TOP互联网公司都在用,为什么SRE比传统运维更抢手?

    作者 | 竹涧 阿里妹导读:双11的完美收官,2684亿的销售奇迹及顺滑极致的客户体验让双11背后的技术再次被推到风头浪尖。而双11技术热点话题,不得不提集团核心系统100%上云这一技术创举。 作为集团上云的底座产品,ECS承担了集团上云基础设施的重任,对如何保障集团上云的极致稳定性及性能需求,弹...

    文章 檸,铮 2019-11-29 1932浏览量

  • 《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.5 大数据系统应有的属性

    本节书摘来自华章出版社《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一书中的第1章,第1.1节,南森·马茨(Nathan Marz) [美] 詹姆斯·沃伦(JamesWarren) 著 马延辉 向 磊 魏东琦 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.5 大数据...

    文章 华章计算机 2017-05-02 1170浏览量

  • 带你读《智能制造之卓越设备管理与运维实践》之三:运维资源信息化管理

    点击查看第一章点击查看第二章 第3章 运维资源信息化管理要实现高效运维,首先要实现资源的高效管理。借助信息化手段,可以将运维资源中的技术、员工、备件、数据进行有效整合,为高效运维奠定良好的基础。本章的结构如图3-1所示。 3.1 管理需求 基于精益管理思想,工厂在生产管理过程中,会通过各种方式来...

    文章 温柔的养猫人 2019-11-08 558浏览量

  • 测试之道--阿里巴巴八年测试专家倾情奉献

    一、  前言 我从事测试工作将近八年了,从起初的不懂测试,怀疑测试,到相信测试,再到坚定测试,其中经历的辛酸、煎熬无法言表。在从事测试工作的这八年里,有人质疑,也有人追捧,唇枪舌剑,没完没了,貌似测试永远都是个站在舆论风口浪尖的角色。本文乃在下之精血所作,是我对测试的高度概括,旨在帮助大家了解测试...

    文章 mqc 2017-08-01 5910浏览量

  • .NET 云原生架构师训练营(模块一 架构师与云原生)--学习笔记

    目录 什么是软件架构 软件架构的基本思路 单体向分布式演进、云原生、技术中台 1.1 什么是软件架构 1.1.1 什么是架构? Software architecture = {Elements, Forms, Rationale/Constraints} 元素、形式/模式、基本原理和限制 为...

    文章 郑子铭 2020-10-12 194浏览量

  • Moebius for SQLServer负载均衡

    搞数据库的都知道:在Oracle上有RAC集群,MySQL也有对应的方案,而SQL Server上直到SQL Server 2012版本的AlwaysOn到来,微软都没有提供一个负载均衡方案,在网上看到Moebius可以实现负载均衡,在此将相关实现过程分享给大家: 一、架构原理 负载均衡集群是...

    文章 dongzhumao 2015-02-09 1784浏览量

  • Heartbeat3.x应用全攻略之:概念组成及工作原理

    一、Heartbeat的概念组成以及工作原理 1、 heartbeat的概念     Heartbeat是Linux-HA项目中的一个组件,也是目前开源HA项目中最成功的一个例子, Linux-HA的全称是High-Availability Linux,这个开源项目的目标是:通过社区开发者的共同努...

    文章 技术小甜 2017-11-15 1014浏览量

  • 如何运用结构化思维进行故障处理

    近期收到朋友赠送的一本书—《深入浅出MySQL》。闲暇之余,阅读了部分章节,书中针对故障处理一节,给我印象颇深。书中提炼出的一些方法论,正是我之前在团队中推广的方法。其目的是为了将故障应急操作标准化,进而提升处理效率。推而广之,这其实是一种结构化思维在具体工作中的体现。而这种思想在某具体工作、乃至...

    文章 宜信技术学院 2019-10-15 5017浏览量

  • 阿里巴巴正式开源自研动态非侵入AOP解决方案:JVM-Sandbox

    写在前面 随着软件部署规模的扩大,系统的功能的细化,系统间耦合度和链路复杂度不断加强。若要继续保持现规模系统的稳定性,需要实现并完善监控体系、故障定位分析、流量录制回放、强弱依赖检测、故障演练等支撑工具平台。出于对服务器规模和业务稳定性的考量,这些配套工具平台要具备对目标应用具有无侵入、实时生效、...

    文章 技术小能手 2018-02-06 5241浏览量

  • 如何提高微服务架构的可用性

    业界通常用多少个9来衡量系统的可用性,如99.99%表示一年中有1小时左右的不可用时间。任何一个服务的可用性都不会是100%,意味着在服务运行时间里还是有可能发生故障。当把功能集中且运行在同一个应用中的单体架构拆分成多个相互独立的微服务架构后,虽然可以降低一损俱损的全局性故障风险,但由于微服务之间...

    文章 jurassic_1 2016-08-08 5759浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的智能化之路

    阿里巴巴资深技术专家后羿 后羿:大家好,首先给大家呈现的是阿里巴巴在双11中主要依赖的网络相关技术。在今年双11中我们在稳定性、高性能网关、去堆叠以及25G、骨干网流量调度平台、流量的精准评估、QOS优化和成本优化方面都取得了突破性的进展。 助力双11的重要网络技术 在稳定性的强化方面,在过去一年...

    文章 技术小能手 2018-01-05 4687浏览量

  • 基础设施助力双11(十):百万级物理和虚拟网络设备的智能化之路

    导言 后羿:阿里巴巴资深技术专家,参与8年双11大战,主导阿里“去IOE”战略落地,目前在推动阿里基础设施智能化。 后羿此次给大家分享的是双11的智能化网络实践,关于如何在网络智能领域通过数据手段极致地优化运营场景,在稳定性、成本、效率方面提升网络运营竞争力,给大家呈现了阿里巴巴在双11中主要依赖...

    文章 初商 2019-07-31 762浏览量

  • 阿里研究员:软件测试中的18个难题

    十多年前我在上一家公司的时候看到过内部有个网站有一个Hard Problems in Test的列表,上面大概有三四十个问题的样子,是各个部门的测试同学提供的。但可惜后来那个list失传了,我很后悔自己当时没有保存一份。后来很多次我都想要找到那份list,因为上面列的那些问题指出了测试专业在自身专...

    文章 茶什i 2020-08-10 1509浏览量

  • 揭秘:技术风险如何保障支付宝的稳定性?

    就现在!蚂蚁「校招季」重磅来袭!除了介绍蚂蚁的技术大咖,我们还邀请了一些通过校招来到蚂蚁的过来人分享他们的通关经验和心得,这里随时可能有行业技术大咖和你的直系学长学姐出没哦~ 「校招季」栏目会持续输出有关“蚂蚁校招”的丰富内容,敬请期待! 之前,我们介绍过支付宝有一个“疯起来连自己都打”的项目,现...

    文章 缪克卢汉 2020-04-14 1360浏览量

  • 如何将bug杀死在摇篮里?

    在欧洲中世纪的传说中,有一种叫“人狼”的妖怪,就是人面狼身。它们会讲人话,专在月圆之夜去袭击人类。而且传说中对“人狼”用一般的枪弹是不起作用的,普通子弹都伤不到也打不死它,只有一种用银子作成的特殊子弹才能把它杀死。Brooks在他最著名的随笔文章《No Silver Bullet》里引用了这个典故...

    文章 技术小能手 2017-06-29 2240浏览量

  • 软件质量没有银弹:阿里巴巴的25个技术实践与坑

    扫描上述二维码或点我直达 免费领! 作者简介:武小平(平晓),阿里巴巴测试专家,在CICD、自动化测试工具和质量管理方面有较多的经验,目前负责阿里巴巴研发协同平台阿里云RDC的测试。 转载来源:研发协同RDC微信公号(alirdc) 在欧洲中世纪的传说中,有一种叫“人狼”的妖怪,就是人...

    文章 云效鼓励师 2017-06-27 11024浏览量

  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化实践

    12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《双11的智能化网络实践》演讲整理,主要讲解了阿里巴巴在网络智能化技术中,大量级网络下网络变更、调度优化技术的大幅度提升,故障快速发现、定位、恢...

    文章 zengzengzeng 2017-12-14 1782浏览量

  • Docker生态系统系列之三:服务发现和分布式配置存储

    本文讲的是Docker生态系统系列之三:服务发现和分布式配置存储,【编者的话】本文介绍了服务发现与全局可读配置存储两部分内容,不仅介绍了工作原理和工作方式,也介绍了与之相关的故障检测、重配置和安全问题,最后还介绍了常用的服务发现项目。整篇文章将这个知识点介绍的很全面细致,让读者能够对服务发现和全局...

    文章 轩墨 2017-09-13 3966浏览量

  • Linux-HA开源软件Heartbeat(概念篇)

    一、 heartbeat的概念Linux-HA的全称是High-Availability Linux,它是一个开源项目,这个开源项目的目标是:通过社区开发者的共同努力,提供一个增强linux可靠性(reliability)、可用性(availability)和可服务性(serviceability...

    文章 技术小甜 2017-11-15 1303浏览量

1 2 3 4 ... 21 >

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板