多故障可测系统可以做什么

  • 云原生高可用技术体系的构建

    伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级也在飞速增长,给互联网业务的技术架构带来了严峻的挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布式、分层的多组件技术架构...

    文章 中间件小哥 2020-07-20 615浏览量

  • 云原生高可用技术体系构建

    以下是视频内容的精华整理。 伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级飞速增长,也给互联网业务的技术架构带来了严峻挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布...

    文章 영~ 2020-06-18 278浏览量

  • 八年来我们到底经历了什么?——中间件专家带你“重走”双11高可用架构演进之路

    双11的技术挑战 双11技术挑战的本质使用用有限的成本去是实现最大化的用户体验和集群整体吞吐能力,用最合理的代价解决零点峰值,支撑好业务的狂欢。阿里做双11已经有八年之久了,八年来双11的交易额增长200倍,交易峰值增长400多倍,系统复杂度和大促支撑难度以指数级攀升;并且经过多年的发展,双11技...

    文章 场景研读 2017-08-04 7550浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 架构师速成8.3-可用性

    作为一个软件系统可用性是第一位的,如果一个系统不可用,你其他的地方做的再怎么好,然并卵。 一般什么情况下软件会不可用: 我方发生故障,导致系统不可用,当然会出现单机的不可用及n多机器群的全部不可用。 程序故障 功能错误、程序退出 系统故障 CPU超负荷、内存超负荷、网络超负荷 物理故障  机...

    文章 姬望 2015-08-07 926浏览量

  • 为什么架构设计要进行服务隔离!

    我们在做系统架构设计的时候,经常离不开的一个话题就是进行服务的隔离设计。 那什么是「服务隔离」呢? 顾名思义,它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的系统服务。 ...

    文章 java填坑路 2018-08-20 859浏览量

  • 看懂架构设计中的服务隔离

    写在前面的话:我们在做系统架构设计的时候,经常离不开的一个话题就是进行服务的隔离设计。 那什么是「服务隔离」呢? 顾名思义,它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体...

    文章 java填坑路 2018-09-09 669浏览量

  • 架构设计之「服务隔离」

    我们在做系统架构设计的时候,经常离不开的一个话题就是进行服务的隔离设计。 那什么是「服务隔离」呢? 顾名思义,它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的系统服务。 其实...

    文章 技术小能手 2018-08-23 1679浏览量

  • SpringCloud 应用在 Kubernetes 上的最佳实践 —— 高可用(容量评估)

    作者 | 牛兔 导读:本文是《SpringCloud 应用在 Kubernetes 上的最佳实践》系列文章的第 11 篇,从前面两期开始我们进入到了高可用专题,分别介绍了流量防护和故障演练相关内容。本文将从另一个视角介绍如何保障业务高可用性:即业务准备阶段,提前进行线上的瓶颈定位和容量评估,以便更...

    文章 阿里巴巴云原生小助手 2020-09-27 648浏览量

  • SpringCloud 应用在 Kubernetes 上的最佳实践 — 高可用(容量评估)

    前言 本文是《SpringCloud 应用在 Kubernetes 上的最佳实践》的第11期,从前面两期开始我们进入到了高可用专题,分别介绍了流量防护和故障演练相关内容。本文将从另一个视角介绍如何保障业务高可用性:即业务准备阶段,提前进行线上的瓶颈定位和容量评估,以便更低成本、更高效/真实的发现系...

    文章 容器小师妹 2020-11-06 530浏览量

  • SpringCloud 应用在 Kubernetes 上的最佳实践 — 高可用(容量评估)

    前言 本文是《SpringCloud 应用在 Kubernetes 上的最佳实践》的第11期,从前面两期开始我们进入到了高可用专题,分别介绍了流量防护和故障演练相关内容。本文将从另一个视角介绍如何保障业务高可用性:即业务准备阶段,提前进行线上的瓶颈定位和容量评估,以便更低成本、更高效/真实的发现系...

    文章 中间件小哥 2020-09-25 3082浏览量

  • 云原生下,如何保障业务系统的高可用性?

    讲师:牛兔(张春梅) 本次分享将按照以下四个方面展开: 高可用体系 云上PTS服务 AHAS流量防护 一.高可用体系 1.高可用体系概念:除了像日常代码功能测试之外,其他与业务稳定性或者可用性相关的都可成为高可用体系,所谓高可用即就是让业务和服务高可用。2.高可用体系按照功能或者业务实现可以分为:...

    文章 琛琛轴子 2020-06-19 194浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸多有代表...

    文章 技术小能手 2017-06-19 3230浏览量

  • 服务器可靠性提升(一)内存CE增强隔离技术

    “稳定性及性价比是云服务的核心竞争力。稳定性是基础,没有它云服务的摩天大楼分分钟就变成危房。虽然云原生架构的应用能更好地容忍单点的故障,但这并不意味着我们可放低标准,因为即使是单点故障也通常会对客户造成影响、破坏口碑,更不要说是系统整体故障。”阿里巴巴研究员余锋曾在2018年杭州云栖大会技术分享时...

    文章 初商 2019-07-31 1621浏览量

  • 如何做好一名稳定性SRE--业务团队系统稳定性的思与行

    前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8年里,我先后在菜鸟、天猫、盒马从事中间件、业务系统、架构等方面的工作,期间一直穿插着负责稳定性和大促的保障工作。我的心态,大致经历过以下几个阶段: low:完全不懂,觉得稳定性就...

    文章 茶什i 2020-10-26 1234浏览量

  • 鲜为人知的混沌工程,到底哪里好?

    阿里妹导读:混沌工程属于一门新兴的技术学科,行业认知和实践积累比较少,大多数IT团队对它的理解还没有上升到一个领域概念。阿里电商域在2010年左右开始尝试故障注入测试的工作,希望解决微服务架构带来的强弱依赖问题。通过本文,你将了解到:为什么需要混沌工程,阿里巴巴在该领域的实践和思考、未来的计划。 ...

    文章 技术小能手 2019-01-29 2859浏览量

  • 从一位在线教育客户的紧急咨询说起

    “我们在 1 月底的时候遇到第一波的流量突增,主要集中在上午和晚上,可能是全国的学校已经明确了延期开学的事情,并通知各学校师生以在线教育的方式渡过困难期,当时,我们在阿里云上进行了紧急扩容来应对这波流量的突增。但我们也清楚,等正式开学,还会有更多的流量进来,而且很可能高流量会成为一种常态,这使得我...

    文章 中间件小哥 2020-02-10 241浏览量

  • “穿实验服的猴子”:Netflix的应用型故障测试研究

    在Qcon London 2016上,Peter Alvaro和Kolton Andrus分享了一项企业与学院合作的成功案例,这次合作最终为Netflix找到了一条自动化故障注入测试(failure injection testing)的崭新途径。在这一案例中他们收获了许多宝贵经验,其中主要包括:...

    文章 青衫无名 2017-07-03 1140浏览量

  • 分布式服务架构下的混沌工程实践

    本文来自阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上的分享,包含三部分内容:(阿里巴巴中间件公众号对话框发送“混沌工程”,获取分享PPT) 混沌工程的定义、价值、原则和流程; 混沌工程如何在企业中落地,以及 ChaosBlade 和混沌实验平台 AH...

    文章 中间件小哥 2019-07-04 17382浏览量

  • Spring Cloud 应用在 Kubernetes 上的最佳实践 — 高可用(混沌工程)

    作者 | 穹谷 导读:从上篇开始,我们进入到了高可用的章节,上篇提到的熔断能力,是历年保障大促当天晚上整个系统不被洪峰流量打垮的法宝。本文将重点介绍为什么我们要做混沌工程以及如何使用 ChaoBlade 工具和 AHAS 平台快速实施混沌工程。 前言 从上篇开始,我们进入到了高可用的章节,上篇提到...

    文章 阿里巴巴云原生小助手 2020-09-22 413浏览量

  • 《分布式系统:概念与设计》一2.4.2 故障模型

    2.4.2 故障模型 在分布式系统中,进程和通信通道都有可能出故障,即它们可能偏离被认为是正确或所期望的行为。故障模型定义了故障可能发生的方式,以便理解故障所产生的影响。Hadzilacos和Toueg[1994]提供了一种分类法,用于区分进程故障和通信通道故障。这些故障将分别在下面的“遗漏故障”...

    文章 华章计算机 2017-08-01 858浏览量

  • 魅族电商运维之路

    文章出自:听云博客        电商行业飞速发展,电商事故络绎不绝,但还是有不少人热衷于电商行业,投身于电商行业。        今天我们就围绕魅族电商运维这一块的内容,来做以下四大块的分享: 业务背景 抢购系统架构 一次大型活动需要准备什么 迅速发展的电商业务带来的思考  ...

    文章 听云 2016-04-10 2260浏览量

  • 阿里研究员:软件测试中的18个难题

    十多年前我在上一家公司的时候看到过内部有个网站有一个Hard Problems in Test的列表,上面大概有三四十个问题的样子,是各个部门的测试同学提供的。但可惜后来那个list失传了,我很后悔自己当时没有保存一份。后来很多次我都想要找到那份list,因为上面列的那些问题指出了测试专业在自身专...

    文章 茶什i 2020-08-10 1427浏览量

  • 性能压测中的SLA,你知道吗?

    本文是《Performance Test Together》(简称PTT)系列专题分享的第6期,该专题将从性能压测的设计、实现、执行、监控、问题定位和分析、应用场景等多个纬度对性能压测的全过程进行拆解,以帮助大家构建完整的性能压测的理论体系,并提供有例可依的实战。 该系列专题分享由阿里巴巴 PTS...

    文章 中间件小哥 2019-08-28 3016浏览量

  • 从一位在线教育客户的紧急咨询说起

    “我们在 1 月底的时候遇到第一波的流量突增,主要集中在上午和晚上,可能是全国的学校已经明确了延期开学的事情,并通知各学校师生以在线教育的方式渡过困难期,当时,我们在阿里云上进行了紧急扩容来应对这波流量的突增。但我们也清楚,等正式开学,还会有更多的流量进来,而且很可能高流量会成为一种常态,这使得我...

    文章 中间件小哥 2020-02-09 1040浏览量

  • 阿里集团搜索和推荐关于效率&稳定性的思考和实践

    背景 效率和稳定性是我们从工程层面来衡量系统对业务支持能力的两个关键指标。从流程管控上来看,业务效率的提升一定程度上会影响到稳定性,而对稳定性要求过高又会带来对业务效率的影响。从业务的角度来看,成熟的业务会更偏向于稳定性,而新业务更偏向于效率。效率和稳定性兼顾,也就变成了一个巨大的挑战。 我们理解...

    文章 李伟-剑豪 2018-02-11 5031浏览量

  • Spring Cloud 应用在 Kubernetes 上的最佳实践 — 高可用(混沌工程)

    前言 从上篇开始,我们进入到了高可用的章节,上篇提到的熔断能力,是历年保障大促当天晚上整个系统不被洪峰流量打垮的法宝,本篇介绍的措施与熔断有不一样的地方,一个是线上洪峰来临时的保护措施,他更多的是流量低峰或者在专门的演练环境中,针对可能遇见的各类故障,采取演练的手段,来窥探对业务的影响。他的主要目...

    文章 中间件小哥 2020-09-02 808浏览量

  • AIOps智能监控在阿里巴巴故障管理工作中的成功实践

    摘要:在自动化运维还不普及的时候,运维人员更多的运用手动的方式完成运维工作,这种方式耗时长,效率低。由此,如何合理发挥人工智能技术辅助运维人员进行故障管理工作逐步成为了业界关注的焦点。阿里巴巴的GOC团队通过研究并使用AIOps系统到运维业务场景中的方式,积累了大量的智能运营的方法论和技术体系。 ...

    文章 止水如心 2018-06-26 5005浏览量

  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构笔记

    阿里巴巴在多年 双11 高并发,高可用和高客户体验要求背景下积累了相应的技术体系,并赋能罗辑思维等客户,帮助他们落地全链路压测。本文整理自高用户、突发高流量场景下的真实案例,公布阿里在高可用架构建设过程中的实践笔记,期待帮助更多企业从容应对接下来的高流量场景。 你的应用为什么崩了? 非常复杂的服务...

    文章 檸,铮 2020-02-18 4511浏览量

  • HACMP 认证学习系列,第 1 部分:入门

    什么是 HACMP? 在解释什么是 HACMP 之前,我们必须定义高可用性的概念。 高可用性 在当今的复杂环境中,为应用程序提供连续的服务是成功的 IT 实现的重要组成部分。高可用性屏蔽或消除计划内和计划外的系统和应用程序停机时间,是帮助为应用程序客户端提供连续服务的组件之一。这是通过消除硬件和软...

    文章 技术小胖子 2017-11-14 878浏览量

  • 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障这些事

    摘要:本文主要带大家了解服务稳定性的重要性和相关策略。策略大概分两部分,第一方面从架构层面介绍保障服务稳定性的常见策略(限流,降级,隔离,超时,重试和集群)。第二个方面是从流程方面(code review, 压测,灰度和监控)讲解怎么去保证稳定性。 演讲嘉宾简介:信海龙(花名沧龙),十余年的互联网...

    文章 PHP小能手 2019-04-25 2079浏览量

1 2 3 4 ... 53 >

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板