• 关于

    数组维数一般会出现什么故障

    的搜索结果
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    Docker 的出现为开发和运屏蔽了这个问题,docker 通过标准的镜像格式,将应用依赖的运行时环境统一打包成标准镜像作为交付,完美解决了这个环境问题。当然,里面还涉及其他的一些应用运行时标准。当我们回头看看...

    文章 阿里巴巴云原生小助手 2021-02-02 3165浏览量

  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...

    文章 yq传送门 2016-12-18 4584浏览量

  • 深入探讨运维驱动的可监控性设计

    这样才能在运过程中接到业务失败投诉的时候,快速定位问题原因,出现故障的位置!2 信息完整性 监控输出的信息包括但不限于以下内容:可用于串联各处理环节的标签、用户号码、渠道来源、操作工号、调用时间、响应...

    文章 努力酱 2017-05-02 1419浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 如何设计高可用系统之故障隔离

    减少或不要对低级别系统的依赖这个是一种依赖原则,因为高级别系统的可用性标准(可用率、性能等)一般是高用于低级别系统的,如果依赖于低级别系统,当它发生故障时,高级别系统也会故障。这样本本质上是将高级将系统...

    文章 初商 2019-08-06 1000浏览量

  • 运维工程师的职责和前景

    其实这个问题其它岗位也会出现,但我发现运更典型,更容易出现这个问题;针对这个问题我谈一下网站运的现状及发展前景(也在思考中,可能不太深入全面,也请大家斧正补充) 运现状: 1、处于刚起步的初级阶段...

    文章 技术小阿哥 2017-11-27 1049浏览量

  • 阿里云弹性计算研发团队如何从0到1自建SRE体系

    可参考以下思路:在设计阶段时定义该依赖的性质,是强依赖还是弱依赖对方提供的SLO/SLA是什么,依赖方可能会出现什么问题以及对我们服务的影响是什么?如果依赖方出现了预期/非预期的异常,我们的策略是什么?如何...

    文章 弹性计算@百晓生 2021-06-08 505浏览量

  • 阿里DNS:用LibFuzzer照亮DNS代码的死角

    数组越界异常是一种非常不好发现的运行时异常,代码编译阶段是不容易被发现的,一般隐藏的也比较深,bug重现的触发条件一般也比较严格,测试输入构造起来难度相对比较大,是一种典型的恶意报文攻击的目标。...

    文章 阿里云DNS专家 2018-11-30 2280浏览量

  • 带你读《跟老男孩学Linux运维:核心基础篇(上)(第2版)》之一:计算机硬件与组成基础

    程序运行的时候,一般会被调度到内存中执行,服务器关闭或程序关闭之后,数据将自动从内存中释放掉。1.程序和进程的基本概念这里简单介绍程序和进程的区别,具体见表0-5。2.企业案例:提升用户体验的网站解决方案(1...

    文章 温柔的养猫人 2019-11-11 919浏览量

  • 双11黑科技,阿里百万级服务器自动化运维系统StarAgent揭秘

    这里重点说明下CMDB中录入的数据与Agent采集的数据不一致的问题,主要是SN、IP这些基础信息,因为大家在使用的时候都是先从CMDB取出机器信息,再来调用我们的系统,如果不一致就会导致调用直接失败,为什么会出现SN/...

    文章 云效平台 2017-12-01 11792浏览量

  • 使用Grab的实验平台进行混沌实验编排

    在运行混沌实验后,一般会有两种可能输出。你已经确认了在引入的故障中系统保持了足够的弹性,或你发现了需要修复的问题。如果混沌实验最初被运行在预发环境那么两种都是不错的结果。在第一种场景,你对系统的行为...

    文章 时序 2019-03-05 5906浏览量

  • 如何从零搭建一个自动化运维体系

    同时,因为手动的操作方式过于依赖运人员的执行顺序和操作步骤,稍有不慎即可能导致服务器配置不一致,也就是同一服务器的配置上出现差异。有时候,这种差异是很难直接检查出来的,例如在一个负载均衡里面个别...

    文章 技术小能手 2018-11-01 2177浏览量

  • OSS服务监控、诊断和故障排除

    相对于传统的软件运行环境,云数据分布式托管环境虽然解决了很多应用业务在基础设施搭建、运管理等方面的问题和成本困难,使得应用服务搭建的门槛降低,但是其复杂的云环境,也大大增加了对其监控、诊断和故障排查...

    文章 婷宝要你疼 2016-05-19 29464浏览量

  • 带你读《智能制造之卓越设备管理与运维实践》之三:运维资源信息化管理

    由于资产设备兼具财务与后勤双重属性,对同一台资产设备,往往由财务的资产管理部门总管其财务价值方面的属性,同时由后勤的设备运部门管理其使用与维修方面的信息。由于资产管理部门从价值角度的管理要求和重点...

    文章 温柔的养猫人 2019-11-08 922浏览量

  • 有货:六层混合云架构打造中国最潮生态圈

    在运平台中,需要做到应对故障快速恢复的预案,分析系统可能出现故障点,在出现故障时,通过自动化的脚本对故障进行恢复。QA环节: 1、有货历史架构的演变历程,达到什么样的规模时才选用混合云模式?答:企业到...

    文章 场景研读 2016-03-31 13872浏览量

  • 孙宇聪:来自Google的DevOps理念及实践

    人云推出SRE系列教程,由SRE经验丰富的技术大牛们为大家分享运一线的独家干货,揭示SRE背后的秘密。人云邀请了前Google SRE、《SRE:Google运解密》的译者孙宇聪与大家进行了线上分享。本文讲述了SRE的基本...

    文章 行者武松 2017-08-01 1363浏览量

  • DevOps:软件架构师行动指南1.2 为什么是DevOps

    如果开发人员和运人员不就这些项目中的一个或多个进行沟通,不难想象会出现什么情况。开发人员的一种常见的态度是“做完了开发,程序可以跑起来了”。我们在讨论采用DevOps的文化障碍时会探讨这种态度产生的原因。...

    文章 华章计算机 2017-05-02 1550浏览量

  • K8s 集群节点在线率达到 99.9% 以上,扩容效率提升 50%,我们做了这 3 个深度改造

    例如应用的发布和应用的扩容过程需要加锁,否则会出现新扩的容器镜像未更新的情况。而一旦对变更进行加锁,变更的效率又会大幅下降。Kubernetes 的能力提供了解决这个问题的机会。Kubernetes 的 workload 提供了...

    文章 阿里巴巴云原生小助手 2019-11-29 1073浏览量

  • 孙宇聪:来自Google的DevOps理念及实践

    人云推出SRE系列教程,由SRE经验丰富的技术大牛们为大家分享运一线的独家干货,揭示SRE背后的秘密。人云邀请了前Google SRE、《SRE:Google运解密》的译者孙宇聪与大家进行了线上分享。本文讲述了SRE的基本...

    文章 技术小能手 2018-04-19 5510浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的智能化之路

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...

    文章 技术小能手 2018-01-05 4779浏览量

  • 阿里云大数据计算平台的自动化、精细化运维之路

    离线计算在公司里一般给的是都是更廉价,更低成本的硬件设备,甚至很多时候在线应用退役的机器也拿来用,即所谓的利旧。这种时候再加上机器是经过搬迁的话,那硬件的压测就必须做,否则线上很长时间不得消停。4...

    文章 隐林 2017-02-28 10093浏览量

  • 基础设施助力双11(十):百万级物理和虚拟网络设备的智能化之路

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...

    文章 初商 2019-07-31 845浏览量

  • LinkedIn 开源其分布式对象存储系统 Ambry

    恢复:因为系统和机器会出现宕机,磁盘上的数据也有可能会损坏,所以有必要实现恢复(recovery)的功能。在启动的时候,存储层会从最后一个已知的检查点读取log,并重建索引。恢复也有助于重建内存中的状态。Log是...

    文章 沉默术士 2017-07-03 1897浏览量

  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化实践

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...

    文章 zengzengzeng 2017-12-14 1825浏览量

  • 微博热点事件背后数据库运维的“功守道”

    其中,Master是主缓存节点,Slave是备份节点,当Master缓存失效或实例挂掉后,数据还能够从Slave节点获取,避免穿透到后端DB资源,L1主要用来抗住热点的访问,它的容量一般比Master要小,平台的业务通常部署多L1,...

    文章 zhangdh1113 2018-09-27 1295浏览量

  • 降云十八掌——阿里云运维架构最佳实践(下)

    我们先来看看,物理机体系下的三大监控方案实践监控方案一:Shell/Python,这个监控解决方案一般用于不懂运的研发人员,没听说过监控系统,也不知道用什么监控系统。所以就用自己擅长的开发语言,来完成日常监控...

    文章 云起君 2019-08-29 3380浏览量

  • Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...

    文章 焦先 2017-08-18 2052浏览量

  • 与“十“俱进 阿里数据库运维10年演进之路

    每年有固定的或临时的建站、迁站等操作,例如今年的一路向北和上海、张北多次建站,可能涉及到万数据库实例及十PB数据,这些都非常考验我们交付的能力。之前的常规做法是让人来评估,确定好操作的数据库范围,...

    文章 七幕 2019-01-11 2570浏览量

  • 首次揭秘!​春晚活动下快手实时链路保障实践

    快手的 Flink 集群规模大概有 3000 多台机器,日处理条目为20万亿,峰值为38亿条。主要应用场景包含以下四类: 实时 SQL 平台,这是 Flink 托管的一个产品化的 SQL 平台。短视频、直播等指标的实时计算,涵盖了...

    文章 阿里云实时计算Flink 2020-06-29 414浏览量

  • 带你读《Prometheus监控实战》之一:监控简介

    我们循序渐进地介绍什么是监控,以及通用的监控方法,并解释一些将在本书后面章节提到的术语和概念。1.1 什么是监控 从技术角度来看,监控(monitoring)是衡量和管理技术系统的工具和流程。但监控远不止于此,...

    文章 被纵养的懒猫 2019-11-11 3376浏览量

  • 一文详解 Nacos 高可用特性

    先统一一下语义,在微服务架构中一般会有三个角色:Consumer、Provider 和 Registry,在今天注册中心的主题中,Registry 是 nacos-server,而 Consumer 和 Provider 都是 nacos-client。在生产环境,我们往往需要...

    文章 中间件小哥 2020-12-28 9150浏览量

1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化