• 容灾切换必备-全局流量管理介绍

    GTM 为用户提供一个 CNAME 接入域名(类似 CDN 的接入域名,用户需要将自己的业务域名 CNAME 到该接入域名上来使用 GTM 的功能)并需要用户配置 地址池(Pool)。一个地址池,代表一组提供相同应用服务,一般是...
    文章 2020-04-13 1241浏览量
  • 利用AX产品提升DNS服务器可用和安全的一种有效...

    DNS服务器是做什么用的这里就不啰嗦了,大家应该还记得2009年国内出现了一次大规模的DNS服务器中断服务的状况吧,那次故障让很多网管人员和决策者意识到了DNS服务在整个Internet接入服务过程中的重要,也充分体会...
    文章 2017-11-14 1091浏览量
  • 如何检测 Web 服务请求丢失问题

    我们可以这样来解释这个问题,客户端流量进入 Web 服务器,如果 Web 服务器处理不过来(超出承受的最大流量或者 Web 服务器本身可能出现 FullGC,OOM,死锁,线程池慢问题),那客户端设置超时的请求将会出现 499...
    文章 2019-09-16 1991浏览量
  • 无人值守时代,运维如何保障发布质量?

    无人值守发布的时候需要应用接入到无人值守发布系统,当然大部分情况下这是一个自动化的过程,系统判断应用是否符合接入标准,如果符合,自动接入,但是也有一些情况导致应用无法自动接入,这种情况下,也...
    文章 2018-04-18 3693浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    一般情况下,网卡出现故障的可能比较小,因此将重点放在对集线器的排除方面。故障解决 更换集线器,网络恢复正常。故障 4:升级至千兆网络之后,服务器连接时断时续 故障现象 原先服务器采用10/100Mbit/s网卡,...
    文章 2018-10-25 1399浏览量
  • 云原生时代,企业多活容灾体系构建思路与最佳实践

    第二,5 分钟定位,原来同城的比如冷备容灾技术,往往做决策非常费劲,或者谁做切换要承担后果,我们更希望基于这个平台能直观看到今天故障影响的情况,相关对应出现什么问题干系人需要做什么样的动作,或者做什么...
    文章 2021-07-02 5338浏览量
  • 阿里创新自动化测试工具平台-Doom

    另外再在接入配置过程中也难免会出现各种问题,最最要的是配置了不序列化的对象导致异常,客户端也会对这样异常进行监控,主动停止有问题的流量的录制。功能强大: 支持应用接口级以及http流量的引流回归测试 一般...
    文章 2017-12-05 30439浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 3656浏览量
  • 阿里搜索事业部故障快速恢复实践

    实验田是用来分桶验证算法效果的集群,试验田的流量一般是在java接入层通过用户id的hash做分桶,然后选择某些桶的流量进入试验田。之所以单拎出来是因为它的切流措施是特殊而且容易遗漏和出问题的。一般试验田考虑到...
    文章 2018-03-16 2617浏览量
  • 异地多活之企业架构案例

    同时中心通过 dts 同步部分数据到各个单元,使得单元具备快速的业务恢复能力,当某个单元出现任何异常不可用场景时,业务流量随时可以切换到其余冗余当前单元数据的正常单元,保障了业务持续和稳定。...
    文章 2020-11-30 2671浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4655浏览量
  • 如何在ECS上搭建Oracle?Oracle云上云下6种架构全解析

    其缺点是,如果ECS出现了问题,那么数据库就会出现问题,这显然不满足期望。Oracle HA on ECS 该架构使用SLB做VIP,主库切换是对外的IP是不变的。下方是HA架构,左边部分是主节点,右边是HA节点。一般情况都是主节点...
    文章 2016-11-02 11055浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    主要分为4个部分,包括数据接入、数据计算、数据应用和数据展示。各层职责分明、衔接顺畅,方便用户开发。快手的 Flink 集群规模大概有 3000 多台机器,日处理条目数为20万亿,峰值为38亿条。主要应用场景包含以下四...
    文章 2020-06-29 495浏览量
  • IoT亿级设备接入层建设实践

    每个接入因为终端数量、终端能力、网络环境等不同的因素有各自的设计特性&xff0c;比如&xff1a;淘宝网需要解决海量短连接问题、微信需要解决海量长连接问题&xff0c;同时大家都要解决移动网络问题&xff0c;那么阿里云...
    文章 2021-07-29 143浏览量
  • 架构选型必读:集中式与分布式全方位优劣对比

    在系统的容灾机制和故障恢复方面,集中式架构一般会采用主备复制和主备切换的方式来实现,几种典型设计原则包括一主多备、同城双活、两地三中心等。集中式的容灾方案比较成熟,也沉淀了数据复制、镜像快照、一体化...
    文章 2018-06-15 3145浏览量
  • 轻松玩转全链路监控

    4.无法支撑大规模场景:当接入的应用数量达到上千个之后,开源全链路监控方案暴露出各种性能问题,需要开发者修改源代码进行针对的优化。5.影响正常业务:如果SDK/探针存在设计上的缺陷,有可能导致应用出现...
    文章 2020-11-24 5191浏览量
  • 一种基于Lucene的实时搜索服务

    因为本文篇幅有限,在这里我只着重介绍:实时、高可用在我们产品中的一些技术实践。实时解决方案在介绍我们产品方案之前,首先介绍下业内常见的实时解决方案,见图1-1实时架构图:图1-1该方案一般是由: ...
    文章 2018-01-26 5309浏览量
  • 从云网络时延看应用部署架构

    通过阿里云的实时拨测工具,只需要输入IP或域名,就可以直接发起全国的探针对目标域名或IP的实时探测,2分钟就会出现全量的结果并以图形化方式呈现。持续拨测 如果希望对应用持续进行网络质量的监控,如果出现故障后...
    文章 2021-01-12 19942浏览量
  • 应用部署架构:如何降低云网络时延?

    通过阿里云的实时拨测工具,只需要输入IP或域名,就可以直接发起全国的探针对目标域名或IP的实时探测,2分钟就会出现全量的结果并以图形化方式呈现。3 持续拨测如果希望对应用持续进行网络质量的监控,如果出现故障...
    文章 2021-01-21 583浏览量
  • 限流和降级(上)|如何打造平台稳定能力(一)

    接入层实现了限流后,一定会有部分用户的请求得不到系统正常的处理,所以平台一般会给用户返回限流页面,在一定程度上减少用户因为请求没有成功处理的失落体验,限流页面的风格会与网站、app的设计风格统一,页面...
    文章 2018-08-16 5010浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7031浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5706浏览量
  • 阿里云行业视觉智能诊断技术

    根据我们的经验,在正式接入客户系统的时候常常发生各种各样的Fail的情景,我们需要仔细收集Fail的case,把这些case重新分析,重新调优训练的模型,再次接入客户的系统。一般这过程往复多次才能最后达到客户认可的...
    文章 2018-06-23 1494浏览量
  • 高德打车构建观测系统实践

    含关键信息,非关键信息,附加信息:关键信息是业务流程中的重要标识,一般会建立查询索引,比如高德打车的订单ID,用户ID等。非关键信息一般为业务日志描述,如“用户下单成功”,非关键信息可不建索引。附加信息...
    文章 2021-05-20 1160浏览量
  • 前任VMware高管Diane Greene发布一款重量级存储方案

    每当加入一台新主机,其同时提供指向自身缓存数据的读取接入途径,并将写入数据发送至Netshelf。最高主机容纳数量为32台,因此读取访问不再由于双控制器机制的存在而受到影响,同时也不会给用于跨主机搜索非本地...
    文章 2017-07-03 1105浏览量
  • 老庙黄金2016春晚抢红包活动技术架构详解

    正是由于活动的时效很强,比如春晚直播的那一两分钟,如果系统出现哪怕10秒的故障对整个活动的效果就大打折扣;性能要求高,不能慢。高并发时往往带来的就是对请求的响应时间变长,但是在促销情况下过长的延时...
    文章 2016-11-17 9897浏览量
  • 罗辑思维在全链路压测方面的实践和工作笔记

    当然这个Mock服务很可能会出现瓶颈,要确保其容量和高并发下的接口延时的稳定,毕竟一些第三方支付和短信接口的容量、限流和稳定都是比较好的。I.压测时系统的CPU阈值和业务SLA 我们的经验是CPU的建议阈值在50到...
    文章 2019-02-21 5820浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    负责稳定的同学应该对这种场景不陌生:系统在夜间或整点大促时会出现偶发的接口超时,等到发现问题再去排查时,已经丢失了异常现场,并且难以复现,无法通过手动 jstack 来诊断。而目前开源的链路追踪实现一般...
    文章 2021-08-24 181浏览量
  • 如何做好一名稳定SRE-业务团队系统稳定的思与行

    区分责任,当出现故障时,区分清楚责任,到底是稳定工作没有做到位,还是做到位了,但是团队同学疏忽了,还是说只是单纯的业务变化;1.3,开发和SRE的区别 都是做技术的,很多开发刚刚转向负责稳定时,有些弯转...
    文章 2020-10-26 4034浏览量
  • 东北财经大学:量化评估体验,无线运维不再复杂

    基于用户上线速度、接入稳定、正常下线率、上线成功率、漫游成功率五个重要参数,精准评估用户上网体验,量化用户接入效果。图2 用户在线体验效果 图3 STA终端体验水平 如图2根据用户吞吐、信号强度、接入速率等...
    文章 2017-09-01 1045浏览量
1 2 3 4 ... 17 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化