• 关于

    系统故障分析不可用

    的搜索结果
  • ChaosBlade 在工商银行混沌工程体系中的应用实践

    作者 | 吴冕冠 来源|阿里巴巴云原生公众号 互联网金融时代下,金融产品和服务模式不断创新,交易量大幅攀升。面对互联网金融的全新发展态势,传统的单体 IT 架构暴露出很多不适应的地方,为此业界广泛应用云计算、分布式等新技术,构建分布式架构和运维体系,以支撑金融业务的快速发展。这些新技术的应用使得基...

    文章 阿里巴巴云原生小助手 2021-01-04 1447浏览量

  • 阿里云应用高可用 AHAS 正式商用,可一键提升云上应用可用性

    在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。 7月17日,阿里云应用高可用服务AHAS 正式商用,包含架构感知、流控降级和故障演练三大独立的功能模块,可快速提高应用的高可用能力,解决分布式架构下的高可用难题。 直播回...

    文章 中间件小哥 2019-07-17 2162浏览量

  • HBase可用性分析与高可用实践

    云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! HBase作为一个分布式存储的数据库,它是如何保证可用性的呢?对于分布式系统的CAP问题,它是如何权衡的呢? 最重要的是,我们在生产实践中,又应该如何保证HBase服务的高可用呢? 下面我们来仔细...

    文章 云栖号资讯小哥 2020-04-27 500浏览量

  • Quick BI 数据可视化分析平台

    2020年入选全球Gartner ABI魔力象限,为中国首个且唯一入选BI产品

    广告

  • 根本原因分析 关键事件关联 IT运维有序发展——中国联通通讯集团

    ·案例背景    中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。 随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状...

    文章 技术小美 2017-11-09 1461浏览量

  • 当 Messaging 遇上 Jepsen

    分布式系统面临的挑战 Is it better to be alive and wrong or right and dead?随着计算机技术的发展,系统架构从集中式演进到分布式。分布式系统相对于单台机器来说提供了更好的可扩展性,容错性以及更低的延迟,但在单台计算机上运行软件和分布式系统上运行软件...

    文章 中间件小哥 2019-11-22 4715浏览量

  • 如何设计高可用系统之故障隔离

    作者:大谷 什么是故障 简单来说,当功能或性能不符合预期,就是故障。 故障有两个比较重要的衡量指标: RPO(Recovery Point Objective):主要指的是业务系统能容忍的最大数据丢失量,针对的是数据丢失。对于资金业务来说,一般 RPO 不能大于 0 的。 RTO(Recovery...

    文章 初商 2019-08-06 788浏览量

  • 在线教育业务系统云上高可用部署架构设计

    从2010年开始,国内新兴的在线教育公司已经越来越多选用公共云计算做为IT基础设施平台。在线教育公司使用云计算,一方面可以减少在IT基础设施方面设备及人力的投入,另一方面可以轻松获得可扩展的计算能力以及更加可靠的安全防护能力。 通过对多家在线教育公司IT部门的交流,由于在线教育公司大多处于业务发展...

    文章 stone75 2016-10-28 5842浏览量

  • 「架构技术专题」如何构建网站高可用架构(详细分析篇)?(6)

    网站的可用性(Avaliability)描述网站可有效访问的特性。 1、网站可用性的度量与考核 网站不可用时间(故障时间)=故障修复时间点-故障发现(报告)时间点 网站年度不可用时间=(1-网站不可用时间/年度时间)× 100% 可用性指标时网站架构设计的重要指标,对外是服务承诺,对内是考核指标,...

    文章 Java进阶架构师 2018-07-29 812浏览量

  • 在 Ali Kubernetes 系统中,我们这样实践混沌工程

    作者| 阿里云智能事业群高级测试开发工程师 智妍 在传统的软件测试中,我们通常通过一个给定的条件来判断系统的反馈,通过断言来判断是否符合预期,测试条件和结果通常比较明确和固定。而混沌工程,是通过注入一些“不确定”因素,象放进了一群淘气的猴子,在系统资源、可用性、安全性、延迟、压力等方面进行捣乱,而...

    文章 jessie筱姜 2019-03-13 2601浏览量

  • 故障记录模版

    故障定义:在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户方环境或自身操作引起的问题。 故障报告:(需要由处理人在故障处理结束后填写完成) 故障标题影响业务 故障时长原因分析发现来源action动作action优化责任人 故障review:处...

    文章 mersap 2017-12-26 757浏览量

  • 阿里云对象存储 OSS 发布全球第一可用性 SLA 背后的技术体系

    一、概述2020年6月,阿里云对象存储 OSS 通过十年积累的技术红利,将可用性 SLA(Service Level Agreement) 提升 10 倍,做到了全球第一的核心竞争力,是其他的云厂家的 10~20 倍,如下图所示。其中, OSS 的标准型(同城冗余)存储,SLA 从 99.95% ...

    文章 阿里巴巴存储技术 2020-06-17 206浏览量

  • 缔造完美运维 共谱双赢新篇

       国华电力早在许久之前就曾经使用北塔网络监控产品,但由于当前国华电力信息中心的网络管理系统呈分散状态,其范围也非常有限,致使无法全面了解国华电力客户信息网中计算机及网络系统的实时运行状况,对网络资源配置及网络流量分布也无法进行有效监控,关键在于无法实现运维流程与事故报警的联动。国华电力客户的各...

    文章 技术小美 2017-11-09 839浏览量

  • 分布式系统的那些事儿(五) - 容错与故障

    我们都经历过巨石应用,单一应用某个功能诱发的故障导致整个站点挂掉,任何人都无法访问,只能一一排错再部署上线,这样造成的影响就是用户的流失。而分布式应用就没有这样的问题,就算某个节点出现故障,那么主备切换,替换主节点,整个系统还是照样运行,完全没有访问不了的现象。 要使系统达到一定的容错性,那么 首...

    文章 风间影月 2017-06-21 610浏览量

  • 负载均衡SLB高可用的四个层次

    负载均衡支持对多台ECS进行流量分发,以提升应用系统的服务能力,长期以来都是关键业务系统的入口。淘宝,天猫,阿里云等无不依赖负载均衡产品,双11的流量洪峰也依赖负载均衡的调度和处理能力。 负载均衡SLB简单介绍 下图是负载均衡的简单示意图,用户的访问请求经过SLB实例的一个监听(端口),再被转...

    文章 我是李泉 2017-09-02 8802浏览量

  • 超级 Ping 监测工具——为您的网络状态保驾护航

    关于 Ping Ping 是一个网络命令,主要是用于确定本地主机是否能与另一台主机交换(发送与接收)数据。根据返回的信息,就可以推断 TCP/IP 参数是否设置得正确以及运行是否正常。正常情况下,Ping 将返回若干个参数,丢失率为 0,当网络状态不佳或网络中断的情况下,Ping 操作将无法正常返...

    文章 oneapm_ 2015-12-29 3546浏览量

  • 怎样管理Lotus Domino

    一个从事3年以上Lotus Domino的维护人员才能比较娴熟的处理一些复杂的问题,除了Lotus Domino以外,对于Lotus Domino所部署的主机操作系统,也要非常精通才行,因为一些大型的Lotus Domino系统必须依赖性能很强的Unix操作系统(Solaris或AIX等)。而有时...

    文章 技术小美 2017-11-09 1993浏览量

  • 北亚成功处理一起浪潮服务器不可用的案例

    它有一个设计合理、功能强大的内部架构,大幅度提升了性能,但某些物理故障或其他操作都可能会对卷或存储造成破坏,因此对系列存储的数据恢复技术才有了用武之地。而发生这些故障之后只能找专业的数据恢复公司做数据挽救工作。我最近处理了一起浪潮服务器因磁盘故障导致存储不可用的案例:故障描述:宁夏某市某局中的一台...

    文章 北亚企安 2017-08-09 1228浏览量

  • 解读Hyper-V 3.0高可用性与冗余功能

     微软在提升Hyper-V 3.0高可用性功能方面可谓不予遗力,添加了预测故障分析,增加了冗余。 IT管理员面临必须要确保网络服务器完整性与可用性的关键任务,这种重要性随着虚拟化越加凸显。在服务器虚拟化之前,服务器故障通常只会影响单个工作负载,然而出问题的虚拟主机会影响好几十个负载。 既然高可用性...

    文章 技术小大人 2017-11-10 916浏览量

  • 监控AlwaysOn可用性组的运行状态

    监控AlwaysOn可用性组的运行状态 杜飞 SQL Server提供用于多种监控AlwaysOn可用性组运行状态的方法: 之一是利用SQL Server的系统中心监视包:也就是借助System Center Operations Manager来实现对SQL Server的监视,管理员需要下载M...

    文章 技术小胖子 2017-11-14 1038浏览量

  • 大众点评账号业务高可用进阶之路

    引言 在任何一家互联网公司,不管其主营业务是什么,都会有一套自己的账号体系。账号既是公司所有业务发展留下的最宝贵资产,它可以用来衡量业务指标,例如日活、月活、留存等,同时也给不同业务线提供了大量潜在用户,业务可以基于账号来做用户画像,制定各自的发展路径。因此,账号服务的重要性不言而喻,同时美团业务...

    文章 技术小能手 2018-06-14 1381浏览量

  • IT部门的服务工作方式、工作内容有了彻底的改变——安徽移动通信有限责任公司

    · 案例背景     随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状况直接影响着员工办公、企业生产,因此确保应用系统的安全、可靠、稳定地运行成为系统维护部门越来越重要的问题,尤其是员工日常办公必需的OA系统。目前安徽移动的OA系统已经运行三年时间,采用Lot...

    文章 技术小美 2017-11-16 1374浏览量

  • 如何提升测试环境的稳定性?来看看阿里内部的实践总结

    痛点 每一次容器申请失败直接造成研发测试停滞, 同时带来答疑及问题排查(程序猿最怕的就是在代码写得正嗨的时候被人给打断,所以一般我都带耳机),涉及到测试链路上各个系统。随着集团pouch化的全面推进,半年来测试环境日容器申请量暴增10倍以上,低成功率导致研发低效的问题越来越凸显,每天累计造成集团上...

    文章 技术小能手 2018-03-05 1904浏览量

  • 阿里移动|《蚂蚁金服移动端高可用技术实践》

    摘要:对于移动技术而言,2017年是继往开来之年。一方面是移动技术领域进入深水区,另一方面移动技术边界和内涵被不断重塑。阿里巴巴希望进一步推动移动应用研发事实标准落地,从而赋能整个行业开发者。在2017年杭州云栖大会上,蚂蚁金服高级技术专家竹光为大家分享了蚂蚁金服移动端在高可用技术方面的具体实践。...

    文章 场景研读 2017-12-07 1635浏览量

  • 分布式系统架构技术分析(二)

    原创声明:本文系作者原创,谢绝个人、媒体、公众号或网站未经授权转载,违者追究其法律责任。 在前一篇《分布式系统架构技术分析(一)》中,我们已经对分布式系统的主要特征、组成要素及运行机制进行了初步的分析。当然,真实构建和运行一个分布式系统涉及的细节要比文章中阐述的复杂很多,如何保障大型分布式系统的...

    文章 初商 2019-08-03 541浏览量

  • 智能化网络管理 为企业信息化保驾护航

         随着目前信息化突飞猛进的发展,科技改变了我们的生活,提高了我们工作的效率,甚至还能通过准确的数据分析帮助我们进行各类的管理。IT技术已经成为了我们工作和生活中不可缺少的重要工具。IBM公司曾经提出了“智慧地球”的远大目标,并受到美国总统奥巴马大力的赞赏,甚至将此概念作为美国在今后继续保持...

    文章 技术小美 2017-11-08 743浏览量

  • 数据库高可用面临的挑战与解决之道|OceanBaseDev

    本文根据 OceanBaseDev Meetup#1 上海站分享整理,本次活动针对分布式数据库的分布式事务以及落地实践展开具体分享。本文作者:羡林,蚂蚁集团高级技术专家,2012年毕业于北京邮电大学计算机专业。2013年加入 OceanBase 团队,参与了OceanBase 1.0 及 2.0 ...

    文章 荔子liqi 2020-11-27 300浏览量

  • 网站的高可用架构 Availability

    可用性度量和考核 度量 用多少个9来表示,表示一年中可用时间的百分比 考核 可以用如下的表: 故障分=故障时间(分钟) * 权重。 计入考核 高可用的网站架构 分层架构,每一层都分布式部署。使用冗余和故障转移的方式保证可用性。 - 应用层用负载均衡服务器,能够监测服...

    文章 机械键盘 2015-10-10 4675浏览量

  • HP MSA存储 raid组lvm下vxfs文件系统数据恢复方案

     一、故障描述   HP FC MSA2000存储 整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。   由于存储是...

    文章 余二五 2017-11-15 580浏览量

  • IDC运营的大数据分析与DCIM

    当我们还没有理解互联网的时候,移动互联来了,当我们还没有理解移动互联的时候,大数据和云计算又来了。不知不觉,成百上千栋数据中心拔地而起,海量的数据已悄然产生,并潜移默化地影响着我们生活中的点点滴滴。 当我们出行时,参考高德地图的交通数据;当我们餐饮时,打开大众点评查看评论数据;当我们购物时,淘宝网...

    文章 初商 2019-07-30 850浏览量

  • 在大规模 Kubernetes 集群上实现高 SLO 的方法

    作者 | 蚂蚁金服技术专家 姚菁华;蚂蚁金服高级开发工程师 范康 导读:随着 Kubernetes 集群规模和复杂性的增加,集群越来越难以保证高效率、低延迟的交付 pod。本文将分享蚂蚁金服在设计 SLO 架构和实现高 SLO 的方法和经验。 Why SLO? Gartner 对 SLO 的定义...

    文章 阿里巴巴云原生小助手 2020-11-06 2841浏览量

1 2 3 4 ... 67 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务