• 【剖析|SOFARPC 框架】之SOFARPC 单机故障剔除剖析

    默认的降级策略是按比例降级出现单机故障的服务权重,首先,降级策略执行器,会获取到当前正在度量的接口和度量结果,根据当前度量的接口,根据度量结果信息获取到当前内存中的服务方信息。然后对其权重进行逐步...
    文章 2018-11-02 1045浏览量
  • 【剖析|SOFARPC 框架】系列之 SOFARPC 单机故障剔除...

    3.5 降级策略默认的降级策略是按比例降级出现单机故障的服务权重,首先,降级策略执行器,会获取到当前正在度量的接口和度量结果,根据当前度量的接口,根据度量结果信息获取到当前内存中的服务方信息。...
    文章 2019-08-03 365浏览量
  • 服务挂了,怎么自动恢复?

    答:supervisor通过fork/exec的方式,把被管理的进程当作其子进程来启动,在被管理的子进程异常退出时(例如tomcat出异常挂掉,或者服务出core挂掉,或者收到异常信号挂掉),作为父进程可以获取相关信息,以选择...
    文章 2019-08-10 668浏览量
  • AI助力日志中心智能化运营

    时间戳是日志的关键信息,时间戳后的数值即为常见的监控消息,更广泛时,变更的事件例如某一时间点某一业务的上线也可作为一种日志事件,当日志平台真正做好AIOps时,需要提供全面的日志信息。就日志易而言,目前对...
    文章 2018-06-23 10067浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    很多弱电圈的朋友经常提到网络故障,其中在交换机组网时常见故障比较多,为了便于大家排除这些故障,在此介绍一些常见的典型故障案例及处理思路。故障 1:交换机刚加电时网络无法通信 故障现象 交换机刚刚开启的...
    文章 2018-10-25 1347浏览量
  • 日志易饶琛琳分享:AI 助力日志中心智能化运营

    时间戳是日志的关键信息,时间戳后的数值即为常见的监控信息,更广义上,变更的事件例如某一时间点某一业务的上线也可作为一种日志事件,当日志平台真正做好 AIOps 时,需要提供全面的日志信息。就日志易而言,目前...
    文章 2018-09-25 2115浏览量
  • 前端代码审查清单

    []与后端接口交互,获取信息使用 GET 方式,传送信息使用 POST 方式。后端接口应对各项参数做校验。前端也要判断接口是否返回合法、正确。[]开发与 DOM 操作有关的代码时,是否对 DOM 不存在或者被人为修改的情况做...
    文章 2020-07-10 184浏览量
  • 日志系统的 AIOps 应用,及日志易智能日志中心运营之...

    其中,时间戳是日志的关键信息,时间戳后的数值即为常见的监控信息。更广义上说,变更的事件——例如某一时间点某一业务的上线,也可作为一种日志事件。当日志平台真正做好 AIOps 时,需要提供全面的日志信息。就...
    文章 2018-11-23 1674浏览量
  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    在节点侧,NPD 会检测故障并上报事件中心,同时 walle 是单机侧的指标采集组件,会采集节点以及容器的各种指标项信息,包括像 CPU/Memory/IO/Network 等常见的指标,以及很多其他的像内核、安全容器等的指标项。...
    文章 2021-03-11 733浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    通过对阿里巴巴历年故障的仔细梳理,阿里巴巴集团内的核心业务的常见故障(非业务自身逻辑问题)都可以通过流量、时延、错误等 3 类指标反应出来,我们称之为黄金指标:流量:业务流量跌零 OR 不正常大幅度上涨下跌...
    文章 2021-07-06 141浏览量
  • xen server 存储库(sr)损坏的数据恢复方案

    三、当LVM结构损坏,同时备份信息也损坏了(适用于常见故障的1、6): 这是真正的技术难题,当LVM结构及其备份信息损坏后,所有的LV的片断索引信息全部丢失,所要做的工作就是找回每个VDI的LV EXTENTS信息。XEN的VDI是...
    文章 2017-11-08 1221浏览量
  • xen server 存储库(sr)损坏的数据恢复方案

    三、当LVM结构损坏,同时备份信息也损坏了(适用于常见故障的1、6): 这是真正的技术难题,当LVM结构及其备份信息损坏后,所有的LV的片断索引信息全部丢失,所要做的工作就是找回每个VDI的LV EXTENTS信息。XEN的VDI是...
    文章 2017-11-15 930浏览量
  • Docker生态系统系列之三:服务发现和分布式配置存储

    一个项目的解决方案是继续允许开放发现服务平台本身,但是对于写入数据进行加密,使用者使用的信息必须用相应的密钥解码从服务发现中获取。其他组件不可以获取到未加密的数据。还有不同的方法,一些服务发现工具实现...
    文章 2017-09-13 4015浏览量
  • Infortrend服务管理器与服务网站新升级,让存储系统的...

    Infortrend的售后服务能力全面增强:服务管理器进一步更新,服务网站得到重新设计,使得管理维护系统更加容易,寻求支持与功能的途径更加便捷,从而保证用户及时获取技术服务。服务管理器集成在Infortrend管理工具...
    文章 2017-11-01 1004浏览量
  • 架构设计|分布式体系下,服务分层监控策略

    有些故障导致大面积服务瘫痪,也称为雪崩效应,可能故障源没有快速处理,也没有熔断机制,导致整个服务链路全部垮掉,这是常见的问题,所以在处理故障时,要学会基于全栈监控信息,全局关联分析核心故障点,快速切断...
    文章 2020-09-17 500浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    而庖丁可以同时进行网络拓扑发现、告警信息自动聚合分析、日志信息自动获取、命令工具自动下发这四项工作,把整个复杂问题的定位时长从1-2个小时缩减为3分钟,给各类场景带来极大的诊断效率提升。针对已经确定的两个...
    文章 2018-01-05 4779浏览量
  • 如何有效可靠地管理大规模 Kubernetes 集群?

    这一设计参考控制理论中常见的负反馈闭环控制系统,系统实现闭环,可以有效抵御系统外部的干扰,在我们的场景下,干扰对应于节点软硬件故障。架构设计 如上图,元集群是一个高可用的 Kubernetes 集群,用于管理 N 个...
    文章 2019-08-15 854浏览量
  • Linux之软件包类故障排错

    软件包类故障在Linux系统中比较常见,例如:需要编译源码包程序时系统中没有安装gcc编译工具,安装RPM软件包时有未解决的依赖关系,程序库文件或头文件的安装路径不正确等,软件包类故障产生的原因非常多,通常只...
    文章 2017-11-15 1187浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    而庖丁可以同时进行网络拓扑发现、告警信息自动聚合分析、日志信息自动获取、命令工具自动下发这四项工作,把整个复杂问题的定位时长从1-2个小时缩减为3分钟,给各类场景带来极大的诊断效率提升。针对已经确定的两个...
    文章 2019-07-31 847浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    而庖丁可以同时进行网络拓扑发现、告警信息自动聚合分析、日志信息自动获取、命令工具自动下发这四项工作,把整个复杂问题的定位时长从1-2个小时缩减为3分钟,给各类场景带来极大的诊断效率提升。针对已经确定的两个...
    文章 2017-12-14 1825浏览量
  • 微服务架构的基础设施

    同时,一旦发生故障,我们需要快速根据各类信息来定位故障。这两个目标如果靠人力去完成是不现实的。举个简单例子:我们收到用户投诉说业务有问题,如果此时采取人工的方式去搜集、分析信息,可能把几十个节点的日志...
    文章 2020-06-01 390浏览量
  • 《树莓派实战秘籍》——1.3 技巧03解码LED灯

    A型只有两个灯,而B型提供了更多的情报和确定故障所需要的宝贵的信息。B型树莓派有个状态LED灯(如图1-2所示,并在表1-1中描述),当它无法启动或出现其他问题时,这些灯可以帮助你定位问题。由于Pi没有BIOS,在Pi...
    文章 2017-05-02 1363浏览量
  • Flutter+FaaS一体化任务编排的思考与设计

    requestItemDO函数是获取领域数据常见流程,首先是获取参数userId与itemId,通过HSF获取商品信息,拿到结果之后判断此次请求是否有效,如果有效返回具体Model数据。任务编排的应用场景 任务类型 任务编排并不局限于...
    文章 2020-07-30 592浏览量
  • 我的第一个python web开发框架(12)——工具函数包...

    info()函数用于记录程序执行过程中的一些信息,比如与第三方接口(最常见的是支付接口)通讯时,将提交的网址、参数和返回的结果记录下来,方便我们在需要时查看,排查出错问题;比如我们需要排查生产环境异常,定位...
    文章 2017-11-15 775浏览量
  • 我的第一个python web开发框架(12)——工具函数包...

    info()函数用于记录程序执行过程中的一些信息,比如与第三方接口(最常见的是支付接口)通讯时,将提交的网址、参数和返回的结果记录下来,方便我们在需要时查看,排查出错问题;比如我们需要排查生产环境异常,定位...
    文章 2017-11-07 1133浏览量
  • 2.0 解析系列|OceanBase 2.0 之 Flashback功能

    数据库产品作为信息系统的重要组成部分,除了要高效的处理用户请求,还需要保证在各种异常情况下故障业务7*24的持续可用和数据的零丢失,本文的主要目的是总结和回顾一下传统数据库的常见故障,并介绍一下OceanBase...
    文章 2018-11-02 1885浏览量
  • 无人值守时代,运维如何保障发布质量?

    通过分析这些异常的出现情况、涨幅情况、或者是否出现了一些常见的容易引起故障的异常,例如ClassNotFound等,我们可以做出足够有用的判断。指标和算法选取 指标这么多,我们一开始应该从哪入手呢?第一个版本的时候...
    文章 2018-04-18 3533浏览量
  • 《树莓派实战秘籍》——1.3 技巧03解码LED灯

    A型只有两个灯,而B型提供了更多的情报和确定故障所需要的宝贵的信息。B型树莓派有个状态LED灯(如图1-2所示,并在表1-1中描述),当它无法启动或出现其他问题时,这些灯可以帮助你定位问题。由于Pi没有BIOS,在Pi...
    文章 2017-05-02 1477浏览量
  • Consul实践之Consul常见应用场景及方案梳理(FAQ)

    当然也可以借助其他监控方案获取容器内的服务状态信息,如借助zabbix或者针对docker的其他监控方案,因为consul提供的UI界面只能反映三种服务状态,通过、警告和严重级别,而且不能提供报警配置。是否支持多个节点...
    文章 2016-05-24 4187浏览量
  • 顶级工业物联网(IIoT)公司

    Augury监控着超过70,000台机器,正在帮助公司识别和发现维护实践中的盲点,并为企业提供重要信息,以便他们能够在出现故障之前主动诊断和维修设备。像其他IIoT公司一样,Augury利用人工智能来运行复杂的算法,该算法...
    文章 2020-07-12 284浏览量
1 2 3 4 ... 25 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化