• 闲鱼神探——线上问题定位与快速解决

    为响应故障报警最快解决,集团内部很多团队都在做故障定位系统,这里简单比较常见的解法。1、基于专家经验的决策树模式目前最成熟,做的最多的方案是基于专家经验,对以往排查路径进行沉淀收敛,以决策树模型进行...
    文章 2020-07-28 1467浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    很多弱电圈的朋友经常提到网络故障,其中在交换机组网时常见故障比较多,为了便于大家排除这些故障,在此介绍一些常见的典型故障案例及处理思路。故障 1:交换机刚加电时网络无法通信 故障现象 交换机刚刚开启的...
    文章 2018-10-25 1429浏览量
  • 制造业如何应用人工智能?

    场景二:设备健康管理基于对设备运行数据的实时监测,利用特征分析和机器学习技术,一方面可以在事故发生前进行设备的故障预测,减少非计划性停机。另一方面,面对设备的突发故障,能够迅速进行故障诊断,定位故障...
    文章 2021-09-13 40浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    在所有硬件故障中,硬盘故障占比50%以上,下面分析一下最常见的一类故障:硬盘媒介故障。通常这个问题表象就是文件读写失败/卡住/慢。但读写问题却不一定是媒介故障产生,所以我们有必要说明一下媒介故障的在各层的...
    文章 2018-11-24 3436浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    在所有硬件故障中,硬盘故障占比50%以上,下面分析一下最常见的一类故障:硬盘媒介故障。通常这个问题表象就是文件读写失败/卡住/慢。但读写问题却不一定是媒介故障产生,所以我们有必要说明一下媒介故障的在各层的...
    文章 2018-11-19 2951浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    通过分析历史网络故障体现的量化特征,精确描述故障的形态和量化特点,帮助我们预知未来网络的潜在的故障。巡检系统在过去一年已经稳定上线,自动化变更系统帮助我们很好的驾驭每一天面临的大量的变更需求。这些就是...
    文章 2018-01-05 4857浏览量
  • 详解数据中心网络高可用的技术

    两个LB 之间运行VRRP,汇聚交换机将去往服务器IP地址的下一跳指向LB的VRRP虚IP地址,当LB主路径板卡故障时,通过VRRP可以切换到备份卡上继续流量转发。两个FW之间也运行VRRP,FW主路径板卡故障时,通过VRRP可以切换...
    文章 2017-08-01 2230浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    通过分析历史网络故障体现的量化特征,精确描述故障的形态和量化特点,帮助我们预知未来网络的潜在的故障。巡检系统在过去一年已经稳定上线,自动化变更系统帮助我们很好的驾驭每一天面临的大量的变更需求。这些就是...
    文章 2019-07-31 946浏览量
  • 全面掌握ping命令(二)ping命令的错误提示与故障排查

    在实际使用ping命令时,最常见的错误提示还是“Request timed out”(请求超时),此时只能根据不同的情况来具体分析。比如电脑无法接入Internet,那么我们可以按照如下思路来排查故障: ① 首先ping网关,如果...
    文章 2017-11-14 1572浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    当收到事件通知后根据实时计算产出的有效数据进行自动化的分析,输出问题的发生路径图。需要解决: 实时拓扑 vs.离线拓扑。实时拓扑对埋点数据有要求,需要能够实时还原调用链路,但依赖采集数据的完整度。离线拓扑...
    文章 2019-07-24 11761浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    通过分析历史网络故障体现的量化特征,精确描述故障的形态和量化特点,帮助我们预知未来网络的潜在的故障。巡检系统在过去一年已经稳定上线,自动化变更系统帮助我们很好的驾驭每一天面临的大量的变更需求。这些就是...
    文章 2017-12-14 1857浏览量
  • 分布式系统架构技术分析(二)

    使用的方法可以通过链路分析,将需要评估业务涉及的链路从入口到结束串联起来,分析这个路径中每一个服务器需要处理的服务以及对应的并发访问量,然后根据总的容量要求计算出每个应用服务器、存储服务器需要达到的...
    文章 2019-08-03 712浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    当收到事件通知后根据实时计算产出的有效数据进行自动化的分析,输出问题的发生路径图。需要解决: 实时拓扑 vs.离线拓扑。实时拓扑对埋点数据有要求,需要能够实时还原调用链路,但依赖采集数据的完整度。离线拓扑...
    文章 2019-08-29 2796浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    常见的使用场景是当某个Job失败后可以通过Portal来查询Job所在的机器是否发生过故障 日常数据收集、故障深度挖掘和预测 除了日常的实时故障处理,华佗也收集OS和硬件的关键数据,如Dmesg、Smartctl、Top、Tcp、Ecc...
    文章 2016-12-18 4694浏览量
  • 提高效率,让你轻松玩转开发运维|阿里云产品精选内容...

    深入了解快戳我常见高危Web漏洞原理及检测技术分析与研究随着计算机技术以及信息网络通信技术的高速发展,人们也逐渐意识到信息安全的重要性,网络安全问题成为社会、国家的关注焦点。本文对Web漏洞的类型与原理、...
    文章 2021-07-26 59浏览量
  • 组串式VS集中式:光伏逆变器究竟选谁?

    2014年慕尼黑Inter Solar论坛上,...大型光伏系统中的买家越来越偏爱组串式逆变器而非集中式逆变器常见的原因是,组串式逆变器的系统设计更灵活、故障发生时的损失较低且生命周期维护成本更低。本文转自d1net(转载)
    文章 2017-07-06 2553浏览量
  • 软件测试方法和技术

    大量测试实践表明,许多故障往往发生在输入定义域或者输出值域的边界上,而不是在其内部。边界值分析法基本思想:选取正好等于、刚刚大于和刚刚小于边界值的数据最为测试数据 例子:假设有两个变量x1和x2的函数F,a&...
    文章 2015-05-07 1182浏览量
  • 10 人,2 个月|虾米音乐的监控体系升级之路

    中间件故障常见的如 Cache、DB抖 动导致一段时间内 RT 增长、超时增多。不过这里需要注意的是,单机 Load 高同样会引发单机读写 Cache、DB 出现问题。监控优化 分析了报警原因,下一步就是优化监控。监控的报警...
    文章 2019-08-22 2281浏览量
  • 分布式-ZooKeeper 分布式服务协同

    让我们分析在ZooKeeper集合中拥有不同数量的节点的效果。如果我们有单个节点,则当该节点故障时,ZooKeeper集合将故障。它有助于“单点故障",不建议在生产环境中使用。如果我们有两个节点而一个节点故障,我们没有...
    文章 2018-04-23 874浏览量
  • [Hadoop]输入路径过滤,通配符与PathFilter

    应用场景:我们想查询一个月以来度假的订单数据,但是HDFS中可能因为业务故障,导致某一天的订单数据不存在: FileInputFormat.setInputPaths(job,inputPath);上述代码在遇到路径不存在的时候会报错。所以在设置路径...
    文章 2016-12-21 1927浏览量
  • SSH服务端配置、优化加速、安全防护

    四、常见故障 提示 ssh_exchange_identification:Connection closed by remote host 多数情况为配置文件出错,可以使用 sshd-T对配置文件进行逐一检查 提示:server refused our key 免密登录被拒绝 使用免密登录 ...
    文章 2017-09-13 2248浏览量
  • 如何成为一名优秀的数据分析师?

    Part 4|数据分析常见的七种思路 1.简单趋势 通过实时访问趋势了解产品使用情况,便于产品迅速迭代。访问用户量、访问来源、访问用户行为三大指标对于趋势分析具有重要意义。(分钟级的实时走势分析) (以星期为周期的...
    文章 2017-07-03 1644浏览量
  • 路由基础概念解析

    路由表比较metric以确定最佳路径,这些metric根据所用的路由算法而不同,下面将介绍常见的metric。路由器彼此通信,通过交换路由信息维护其路由表,路由更新信息通常包含全部或部分路由表,通过分析来自其它路由器的...
    文章 2017-11-14 904浏览量
  • 阿里:千亿交易背后的0故障发布

    通过分析这些异常的出现情况、涨幅情况、或者是否出现了一些常见的容易引起故障的异常,例如ClassNotFound等,我们可以做出足够有用的判断。指标和算法选取 指标这么多,我们一开始应该从哪入手呢?第一个版本的时候...
    文章 2018-04-20 5075浏览量
  • 无人值守时代,运维如何保障发布质量?

    通过分析这些异常的出现情况、涨幅情况、或者是否出现了一些常见的容易引起故障的异常,例如ClassNotFound等,我们可以做出足够有用的判断。指标和算法选取 指标这么多,我们一开始应该从哪入手呢?第一个版本的时候...
    文章 2018-04-18 3758浏览量
  • 揭秘 SIGCOMM 20‘论文:阿里云网络洛神 VTrace 系统

    低损耗数据包信息、流量路径和传输质量分析:在不影响用户业务的情况下,分析数据包信息,流量路径以及传输质量,并精准探测网络传输的时延抖动。精准分析丢包原因定位:当丢包发生,VTrace 系统需要快速找到有问题...
    文章 2020-06-12 1156浏览量
  • 高性能负载均衡设计与实现

    然后是快速路径,我们在做网络转发模型时很容易想到设计快速路径和慢速路径,慢速路径更多是解决首包如何通过设备问题,可能需要查ACL或路由,需要判断许多和策略相关的东西,后面所有报文都可以通过快速路径转发...
    文章 2017-09-28 11122浏览量
  • Vmware vSphere常见问题汇总(四)

    故障分析:由于系统安装时候是完整的,光盘镜像包是完整的,安装的时候不存在任何问题。考虑到物理机上不存在这种问题,怀疑虚拟机虚拟驱动的问题,安装新的VMware-tools问题依旧。解决方案:考虑到红旗Linux比较新...
    文章 2017-11-14 1591浏览量
  • 阿里集团搜索中台TisPlus

    当然如果状态和状态之间存在关键路径的分支,那么如何选择一个当前状态到目标状态的最短最优路径就会是一个新的挑战方向,目前我们正在对这个难点进行调研,希望未来系统能沉淀出来更为智能化的决策中心,不仅仅只是...
    文章 2018-01-26 6755浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    因为插件可扩展的设计,所以我们默认是可以同时注入多种故障场景的,同时插件也会把影响到请求的详细信息异步上报给服务端做分析。理论上通过上述的方案,在业务流量输入方面,我们没有任何要求。无论是人的自发测试...
    文章 2017-06-19 3724浏览量
1 2 3 4 ... 15 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化