• 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2697浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重,即:2)节点流量节点流量由入口流量根据流量分支模型,按比例转化而来。...
    文章 2021-03-08 1890浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 3775浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    答:核心理念不是让系统很稳健,不出故障。而是恰恰相反,任何系统的节点,软件或者硬件出现故障时,整个系统依旧可用,即某一点的故障不使得整个系统瘫痪。关于分享者: 李健 有货CTO 有货旨打造中国潮流生态圈,其...
    文章 2016-03-31 13965浏览量
  • 如何轻松学习 Kubernetes?

    默认情况下,VPC 的只认识 VPC 网段的地址,而集群里边的容器,一般会使用和 VPC 不同的网段。比如 VPC 使用 172 网段,那容器可能就使用 192 网段。我们通过在 VPC 的路由表里,增加容器网段的路由项,可以让容器...
    文章 2020-04-30 8743浏览量
  • 企业购买阿里云服务器如何选择自己的配置?

    如果没有硬盘,那么服务器只有系统盘,如果系统一旦出故障,我们很难找回数据,无论个人还是企业大多数都是将自己网站部署在D盘,而非系统盘,一般企业网站买个20-50基本上就足够了,重点是数据盘价格不贵,多买点总...
    文章 2019-05-01 3076浏览量
  • 如何轻松学习 Kubernetes?

    默认情况下,VPC 的只认识 VPC 网段的地址,而集群里边的容器,一般会使用和 VPC 不同的网段。比如 VPC 使用 172 网段,那容器可能就使用 192 网段。我们通过在 VPC 的路由表里,增加容器网段的路由项,可以让容器...
    文章 2020-06-15 342浏览量
  • 阿里云技术专家自荐新书《深入浅Kubernetes》

    首先,UI,业务和数据,这些应用可能用不同语言写的,依赖的库版本不一样,如果安装在一个系统会出现兼容性问题。其次,是应用的调度和集群资源管理的问题,混部需要解决一些应用出来之后放到哪个节点去运行、放到...
    文章 2020-04-23 1266浏览量
  • 如何轻松学习 Kubernetes?

    默认情况下,VPC 的只认识 VPC 网段的地址,而集群里边的容器,一般会使用和 VPC 不同的网段。比如 VPC 使用 172 网段,那容器可能就使用 192 网段。我们通过在 VPC 的路由表里,增加容器网段的路由项,可以让容器...
    文章 2020-05-06 677浏览量
  • 如何定位性能瓶颈

    后来经过排查,发现是存储集群的一个存储单元出现故障导致写入速度变慢致使出现大量等待。5、最后的大杀器:应用服务器监控及代码分析 如果没能在其他位置发现瓶颈,那么软件程序所运行的平台——应用服务器很可能是...
    文章 2017-03-19 1460浏览量
  • 藏经阁电子书发布:《深入浅Kubernetes》

    默认情况下,VPC的只认识VPC网段的地址,而集群里边的容器,一般会使用和VPC不同的网段。比如VPC使用172网段,那容器可能就使用192网段。我们通过在VPC的路由表里,增加容器网段的路由,可以让容器使用VPC网络进行...
    文章 2020-04-17 3432浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    区分责任,当出现故障时,区分清楚责任,到底是稳定性工作没有做到位,还是做到位了,但是团队同学疏忽了,还是说只是单纯的业务变化;1.3,开发和SRE的区别 都是做技术的,很多开发刚刚转向负责稳定性时,有些弯转...
    文章 2020-10-26 4794浏览量
  • 是时候聊一下程序员争相追逐的“香馍馍”Istio了

    数据平面:由一组和业务服务成对出现的Sidecar代理(Envoy)构成,它的主要功能是接管服务的进出流量,传递并控制服务和Mixer组件的所有网络通信(Mixer是一个策略和遥测数据的收集器,稍后介绍)。控制平面:主要...
    文章 2019-08-30 1787浏览量
  • 阿里云服务器企业站如何选择适合自己的云服务器配置?

    如果没有硬盘,那么服务器只有系统盘,如果系统一旦出故障,我们很难找回数据,无论个人还是企业大多数都是将自己网站部署在D盘,而非系统盘,一般企业网站买个20-50基本上就足够了,重点是数据盘价格不贵,多买点总...
    文章 2019-05-06 3114浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样在关键时刻让你的应用出现“崩”的情况。阿里巴巴工程师的高可用架构建设...
    文章 2020-02-18 4597浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    有分布式处理能力后,需要考虑单个服务器故障后自动探活摘除、服务器增删能不停服自动同步给依赖方等问题,这里就需引入一些分布式中枢控制系统,如服务注册发现系统、配置变更系统等,例如zookeeper是一个经典应用...
    文章 2021-01-27 8431浏览量
  • Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
    文章 2017-08-18 2206浏览量
  • 利用阿里云搭建WordPress网站 – 服务器横向扩展

    针对数据库增加了缓存和只读实例这些配套组件之后,在很长一段时间之内,网站都不再会因为数据库性能出现问题(毕竟网站读多写少,业务场景比较单一),随着业务持续增加压力会出现在应用服务器上。应用服务器的扩展...
    文章 2019-10-08 3723浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样在关键时刻让你的应用出现“崩”的情况。阿里巴巴工程师的高可用架构建设...
    文章 2020-02-18 5055浏览量
  • 分布式主动感知在智能运维中的实践

    但这样处理,下次可能还会出现同样的问题。如果将故障放到ITSM部分进行分析,就能让问题得到更根本的解决。发现故障后,通过请求管理把这件事告诉后台人员,后台人员看到请求后将故障升级为“事件”并提交给研发人员...
    文章 2019-07-09 2303浏览量
  • 综合监控电源和冷却设备 轻松降低运营成本

    由于这种数据挖掘和分析的水平超出了行业最佳实践,所以数据中心的利益相关者需要接受相关的操作培训,也要说明这种控制系统是如何显著提高设备效率并降低运营成本的。案例分析 以一家数据中心托管服务提供商为例。...
    文章 2017-07-04 1128浏览量
  • 架构选型必读:集中式与分布式全方位优劣对比

    系统的容灾机制和故障恢复方面,集中式架构一般会采用主备复制和主备切换的方式来实现,几种典型设计原则包括一主多备、同城双活、两地三中心等。集中式的容灾方案比较成熟,也沉淀了数据复制、镜像快照、一体化...
    文章 2018-06-15 3247浏览量
  • DNS服务器:小黑屋中的“翻译官”大神

    一般来讲,DNS服务器一般会在获得域名对应IP地址之后,将该IP地址与域名对应关系记入缓存中,以备下次别的用户查询时可以直接返回结果,以加快网络访问速度。完成以上8步,正向解析完成,除了正向解析(域名转换成IP...
    文章 2017-07-05 1899浏览量
  • 《威胁建模:设计和交付更安全的软件》——2.4 软件...

    “数据库”也是一个入口点,因为名义上,其他软件可以在数据库改变数据,可以使用数据解析故障来获得对系统控制。对于财务来说,入口点是“对外输出报表”、“财务规划和分析”、“核心财务软件”、“销售”和...
    文章 2017-07-03 1637浏览量
  • linux系统启动过程详解-开机加电后发生了什么-linux...

    在第一阶段(MBR)中启动stage1.5的boot loader来理解linux内核镜像中的特殊的文件系统格式,例如,reiserfs_stage1-5(用于从reiserf日志文件系统中进行加载)或e2fs+stage1_5(用于从wxt2或ext3文件系统进行加载)...
    文章 2016-05-18 2314浏览量
  • Spring Cloud面试题万字解析(2020面试必备)

    除此之外,Eureka还有自我保护机制,如果在15分钟内超过85%的节点没有正常的心跳,那么Eureka就认为客户端与注册中心发生了网络故障,此时会出现以下几种情况: ①、Eureka不在从注册列表中移除因为长时间没有收到...
    文章 2020-05-12 808浏览量
  • 带你读《Istio入门与实战》之一:服务网格与Istio

    Istio继续添加新功能,但是最重要的是扩展策略系统的能力,集成其他策略和控制来源,并将网格行为信号传播到其他系统进行分析。策略运行时支持标准扩展机制以便插入其他服务中。可移植性:Istio必须支持以最小的...
    文章 2019-11-04 2737浏览量
  • 如何打造应对超大流量的高性能负载均衡?

    多个AZ的负载通过控制系统分配 缺省提供VIP多AZ的容灾能力 不支持跨AZ的session同步,跨AZ切换后,所有连接都需要重连 3.Region 当用户访问域名时,通过DNS解析,可以设定DNS解析到多个regionVIP地址,下沉到某一个...
    文章 2018-11-23 2286浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    大家知道 K8s 社区只能够支撑五千个节点,当超过这个规模时,会出现各种性能瓶颈问题,比如:etcd 出现大量的读写延迟。kube-apiserver 查询 pods/nodes 延时很高,甚至导致 etcd oom。控制器无法及时感知数据变化,...
    文章 2021-05-17 724浏览量
  • 支付系统如何进行分布式改造

    运营支撑:贯穿于四个层的是运营支撑域:一般会划分运营支撑、安全、风控、营销子系统。垂直拆分本质上是服务化改造,除了上面讲的按业务拆分,还需要一套分布式服务框架的支撑。分布式改造之水平拆分 前面讲的垂直...
    文章 2019-08-03 757浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化