• 关于

    发布版本通知故障原因

    的搜索结果
  • 高可用系统常用解决手段浅述

    线网出现了故障,查故障原因,一个常用的办法就是追查下最近是否有发过版本,比较下发布前后的代码。使用灰度发布策略,发布并且验证没问题后再全量发布。灰度发布的策略,包括搭建预发布环境,有专用的预发布机器...

    文章 知与谁同 2017-05-23 1433浏览量

  • 阿里:千亿交易背后的0故障发布

    当然,并不是说开发同学一定要自己去刷这个页面才能够知道当前发布是否有异常,当发布出现异常的情况下,系统会先自动暂停当前的发布,然后通过钉钉等一些通知方式,告知开发的同学,你的某个发布出现了异常,需要你...

    文章 阿里云头条 2018-04-20 5031浏览量

  • 无人值守时代,运维如何保障发布质量?

    当然,并不是说开发同学一定要自己去刷这个页面才能够知道当前发布是否有异常,当发布出现异常的情况下,系统会先自动暂停当前的发布,然后通过钉钉等一些通知方式,告知开发的同学,你的某个发布出现了异常,需要你...

    文章 云效平台 2018-04-18 3522浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 走近华佗,解析自动化故障处理系统背后的秘密

    华佗可以做到IP粒度版本控制和校验,基于此,华佗可以进行多版本同时灰度,同时验证发布,以增加Checker的迭代速度。Quota管理和手工驾驶 在整个华佗运行过程中,可能会有我们预料不到的Bug产生,这些Bug可能会放大...

    文章 yq传送门 2016-12-18 4584浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...

    文章 技术小能手 2017-06-19 3556浏览量

  • 无人化运维离我们有多远?阿里智能化运帷平台深度揭秘

    发布上我们有运维算法平台的支持,可以做到“无人值守”发布,所谓的“无人值守”发布意味着用户不再需要盯着发布了,发布系统如果发现系统有故障就会自动停止发布通知用户,如果一切正常则自动发布完成,无需人...

    文章 技术小能手 2017-10-27 4203浏览量

  • 三星迷之尴尬,升级系统的手机不兼容Gear VR

    但是考虑到三星的Gear VR有Oculus的技术支持,所以故障原因很可能是由于Oculus应用并没有更新对Android 7.0 Nougat的支持。这个bug应该很快会被三星解决,已经升级的用户估计很快就能在安卓Android 7.0 Nougat上...

    文章 行者武松 2018-03-06 761浏览量

  • DLedger —基于 raft 协议的 commitlog 存储库

    DLedger 其中一个应用就是在分布式消息系统中,RocketMQ 4.5 版本发布后,可以采用 RocketMQ on DLedger 方式进行部署。DLedger commitlog 代替了原来的 commitlog,使得 commitlog 拥有了选举复制能力,然后通过...

    文章 中间件小哥 2019-08-07 11109浏览量

  • 我在系统设计上犯过的14个错

    上面这里故障原因简单来说是分布式调用中超时时间太长的问题,但更深层次来思考,问题是犯在了设计服务框架时的技术选型,在选择JBoss-Remoting时没有充分的掌握它的运行细节,这个设计的错误导致的是后来决定放弃...

    文章 初商 2019-07-30 548浏览量

  • 我在系统设计上犯过的14个错

    上面这里故障原因简单来说是分布式调用中超时时间太长的问题,但更深层次来思考,问题是犯在了设计服务框架时的技术选型,在选择JBoss-Remoting时没有充分的掌握它的运行细节,这个设计的错误导致的是后来决定放弃...

    文章 xiaoqb 2016-07-13 14767浏览量

  • 云原生必备知识: etcd

    2019 年,etcd 即将发布全新的 3.4 版本,该版本由 Google、Alibaba 等公司联合打造,将进一步改进 etcd 的性能及稳定性,以满足在超大型公司使用中苛刻的场景要求。技术特点|  简单:基于HTTP+JSON的API让你用...

    文章 保持可爱mmm 2020-02-20 338浏览量

  • 阿里毕玄:我在系统设计上犯过的14个错

    上面这里故障原因简单来说是分布式调用中超时时间太长的问题,但更深层次来思考,问题是犯在了设计服务框架时的技术选型,在选择JBoss-Remoting时没有充分的掌握它的运行细节,这个设计的错误导致的是后来决定放弃...

    文章 云学习小组 2016-04-22 20426浏览量

  • DRC,为什么我们要走最难的路

    2011-2013,大量的MySQL,大量的下游公共账号,部分还非得拉主库,DBA主备切换或拆库,要通知10多个团队,N个邮件列表,大家一起熬夜变更,一旦出现漏通知故障就由DBA扛。2013年,淘宝最小单元化环境,数据库之间...

    文章 华蒙 2016-01-05 19809浏览量

  • HBase原理-RegionServer宕机数据恢复

    HBase的故障恢复我们都以RegionServer宕机恢复为例,引起RegionServer宕机的原因各种各样,有因为Full GC导致、网络异常导致、官方Bug导致(close wait端口未关闭)以及DataNode异常导致等等。这些场景下一旦...

    文章 知与谁同 2017-08-01 1956浏览量

  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    DB依赖主要分析依赖DB的稳定性,首先,DB有没有慢SQL,盒马早期大多数故障原因是慢sql导致,后来对DB的集中治理才使得这块不稳定因素被逐步瓦解,但是慢SQL治理是长期的事情,不管是上新业务的sql事前分析,还是流量...

    文章 檸,铮 2020-02-18 554浏览量

  • 这可能是史上最全 Redis 高可用解决方案总结

    其中 Redis Sentinel 集群是由若干 Sentinel 节点组成的分布式集群,可以实现故障发现、故障自动转移、配置中心和客户端通知。Redis Sentinel 的节点数量要满足 2n+1(n>1)的奇数个。优点:Redis Sentinel 集群...

    文章 技术小能手 2018-09-29 2829浏览量

  • 这可能是目前最全的Redis高可用技术解决方案总结

    其中Redis Sentinel集群是由若干Sentinel节点组成的分布式集群,可以实现故障发现、故障自动转移、配置中心和客户端通知。Redis Sentinel的节点数量要满足2n+1(n>1)的奇数个。优点: Redis Sentinel集群部署...

    文章 技术小能手 2018-08-21 19019浏览量

  • RocketMQ 千锤百炼--哈啰在分布式消息治理和微服务治理中的实践

    场景四 消费流量摘除和恢复消费流量摘除和恢复通常有以下使用场景,第一个是发布应用时需要先摘流量,另外一个是问题定位时希望先把流量摘除掉再去排查。为了支持这种场景,需要在客户端监听摘除/恢复事件,将消费...

    文章 阿里巴巴云原生小助手 2021-06-17 7352浏览量

  • Flink Kafka Connector 与 Exactly Once 剖析

    Flink Checkpoint 是 Flink 用来实现应用一致性快照的核心机制,当 Flink 因故障或其他原因重启后可以通过最后一次成功的 Checkpoint 将应用恢复到当时的状态。如果在应用中启用了 Checkpoint,会由 JobManager 按...

    文章 阿里云实时计算Flink 2019-10-14 2386浏览量

  • 核桃编程:前端可观测性建设之路

    对于生产环境的每一次版本升级,核桃编程都会通过灰度发布的方式实现,先将小规模的用户流量导入新版本进行功能性、稳定性、健康性验证,只有满足预先定义的各项指标后,才会逐步增加导入新版本的用户流量,否则会...

    文章 中间件小哥 2021-01-22 4102浏览量

  • 应对双11挑战,阿里巴巴智能化运维体系演进与建设

    原因之一就是我们的StarAgent基本上统一了运维的通道&xff0c;任何BU任何系统都不会擅自也不允许去建设自己的通道&xff0c;统一的好处就是可以统一监管&xff0c;同时也减少了不必要的重复建设。每个业务运维系统只要建设...

    文章 云效平台 2017-10-27 7766浏览量

  • 核桃编程:前端可观测性建设之路

    对于生产环境的每一次版本升级,核桃编程都会通过灰度发布的方式实现,先将小规模的用户流量导入新版本进行功能性、稳定性、健康性验证,只有满足预先定义的各项指标后,才会逐步增加导入新版本的用户流量,否则会...

    文章 阿里巴巴云原生小助手 2021-07-20 4620浏览量

  • 史上最全Redis高可用技术解决方案大全

    1、故障恢复复杂,如果没有RedisHA系统(需要开发),当主库节点出现故障时,需要手动将一个从节点晋升为主节点,同时需要通知业务方变更配置,并且需要让其他从库节点去复制新主库节点,整个过程需要人为干预,比较...

    文章 技术小能手 2018-11-16 1708浏览量

  • 稳定性保障6步走:高可用系统大促作战指南!

    (2)低可用依赖节点判断节点服务日常超时严重节点对应系统资源不足(3)高风险节点判断上次大促后,节点存在大版本系统改造新上线未经历过大促的节点节点对应系统是否曾经出现高级别故障节点故障后存在资损风险应...

    文章 开发者小助手_LS 2021-03-08 1691浏览量

  • VMware vSphere 5.1 群集深入解析(七)

    只到T+59s,FDM都不会被通知到(T=0发生故障,T+29HOSTD宣告它,开启心跳失败计时,在T+59 HOSTD报告黄色状态,T+89报告红色状态)。当心跳故障来自于来宾代理,将不会有黄色状态发出,所以没有额外增加的30秒时间...

    文章 余二五 2017-11-09 977浏览量

  • 阿里云对象存储 OSS 发布全球第一可用性 SLA 背后的技术体系

    同时,基于 OSS 的版本控制 和 业务无更新写,实现了主区域故障切换的数据一致性。3.7 管理机制除了上述的各种技术保障外,还有如下的管理机制来提升可用性。库存管理。公共云服务是重资产模式,需要自己管理供应链...

    文章 阿里巴巴存储技术 2020-06-17 288浏览量

  • 为什么 K8s 在阿里能成功?| 问底中国 IT 技术演进

    如果在应用发布的过程中,同时提交了应用扩容的请求,由 3000 扩容到 3200 个实例,扩容的 200 个实例应该采用旧版本还是新版本,采用旧版本扩容将面临的问题是谁最终负责这 200 个旧版本实例的升级,采用新版本扩容...

    文章 阿里巴巴云原生小助手 2020-01-21 982浏览量

  • 汇报一下,闲鱼的ipv6改造之路

    其第一版协议标准(RFC1883)早在1995年就已发布,但是由于现存ipv4网络升级成本较高以及ipv4自身的改进等种种原因直到最近几年ipv6才开始在全球范围内大规模应用。lt;br/gt;在我国从2018年5月工信部通知贯彻两办...

    文章 闲鱼技术 2020-06-23 1478浏览量

  • 《 软件测试价值提升之路》——3.2 正常使用中部分出错

    产品测试团队探索了一个行之有效的做法:随机抽取一段时间的用户操作及其对应的数据,在版本发布之前在实验环境上进行回放,这样一来,现实存在的绝大部分数据组合和业务场景就被覆盖了。对大部分互联网公司而言,这...

    文章 华章计算机 2017-05-02 1697浏览量

  • 原理解析 | Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

    Apache Flink 自2017年12月发布的1.4.0版本开始,为流计算引入了一个重要的里程碑特性:TwoPhaseCommitSinkFunction(相关的Jira)。它提取了两阶段提交协议的通用逻辑,使得通过Flink来构建端到端的Exactly-Once...

    文章 apache_flink 2019-06-20 1883浏览量

1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化