• 关于

    故障定位宕机的原因

    的搜索结果
  • 怎样管理Lotus Domino

    一个从事3年以上Lotus Domino的维护人员才能比较娴熟的处理一些复杂的问题,除了Lotus Domino以外,对于Lotus Domino所部署的主机操作系统,也要非常精通才行,因为一些大型的Lotus Domino系统必须依赖性能很强的Unix操作系统(Solaris或AIX等)。而有时...

    文章 技术小美 2017-11-09 2008浏览量

  • 使用云监控和函数计算,秒级恢复故障

    云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。 试想这样一个场景: 当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。 如何做到? 云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管...

    文章 裴旻 2018-08-06 10459浏览量

  • 使用云监控和函数计算,秒级恢复故障

    云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。 试想这样一个场景: 当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。 如何做到? 云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管...

    文章 江米 2018-08-07 1588浏览量

  • 为何helpdesk的电话总是那么多

    本文出自Simmy的个人blog:西米在线 http://simmyonline.com/archives/294.html   每天我们都忙于救火,忙于帮用户处理电脑故障。按照Gartner的IT成熟度模型的标准看,我们的IT仍属于最基本的成本中心阶段,典型的特点是应对型,头痛医头;问题驱动型...

    文章 技术小美 2017-11-11 758浏览量

  • HBase和Cassandra比较

    HBase是一个开源的分布式存储系统。他可以看作是Google的Bigtable的开源实现。如同Google的Bigtable使用Google File System一样,HBase构建于和Google File System类似的Hadoop HDFS之上。 Cassandra可以看作是Amaz...

    文章 雨客 2016-04-08 13498浏览量

  • 阿里如何做到百万量级硬件故障自愈?

    随着阿里大数据产品业务的增长,服务器数量不断增多,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建,真正在影响业务之前实现硬件故障自动闭环策略,对于常见的硬件故障无需人工干预...

    文章 隐林 2018-11-24 3333浏览量

  • 阿里如何做到百万量级硬件故障自愈?

    随着阿里大数据产品业务的增长,服务器数量不断增多,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建,真正在影响业务之前实现硬件故障自动闭环策略,对于常见的硬件故障无需人工干预...

    文章 技术小能手 2018-11-19 2701浏览量

  • 服务器运维的日常维护工作有哪些

    一、认识服务器 良知知彼才气百战不殆,假如对本身维护的服务器都不相识,何故能正确办理服务器宕机、补丁安装,裂痕修复等问题。 1.服务器操纵系统范例,版本,补丁版本; 2.服务器硬盘利用率; 3.服务器运行业务的环境; 4.服务器网络设置环境等。 二、按期查抄 1.服务器电源状态查抄; 2.服务器电...

    文章 zhubaojie 2018-07-07 2256浏览量

  • 走近华佗,解析自动化故障处理系统背后的秘密

    集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统。一方面完成飞天其他组件不擅长的OS和硬件的故障自动监测和处理,另一方面推动飞天去及时规避硬件和OS引起的故障,使得故障能够闭环运转,大幅度减少故障处理成本和造成的影响。飞天5K项目期间的规模效应凸显出自动化处理故障的必要性,大...

    文章 yq传送门 2016-12-18 4475浏览量

  • 黑客与宕机

    宕机问题有一种比较少见的pattern,就是看起来完全不相关的机器同时出现宕机。处理这个pattern的问题,我们需要找到,在这些机器上能同时触发问题的条件。 通常,这些机器要么几乎在同一时间点出现问题,要么从某一个时间点开始,相继出现问题。对于前一种情况,比较常见的情形是,物理机故障导致运行在其...

    文章 声东 2018-05-04 2491浏览量

  • 阿里基础设施的智能监控

    IDC、网络、服务器等基础设施承载了一次又一次的双十一奇迹。随着阿里集团业务全球化、多元化发展,作为整个集团之根本的基础设施,其运营水平显得愈发重要,智能监控成为了重中之重。 阿里IDC承载着为全球业务提供基础服务的重担,服务的稳定性和可用性有着极高的业务要求,同时又面临全球机房环境迥异、设施链条...

    文章 初商 2019-07-30 1014浏览量

  • 我们雇佣了一只大猴子...

    Picture from Gremlin 我们“雇佣”了一只大猴子,只为“搞破坏”,不开玩笑。 这只猴子是用来做什么的? 从程序员的视角来看,提高系统稳定性的方法无外乎三种: 通过各种技术手段,例如在容器和调度、微服务、消息、软负载和配置中心等纬度提高系统和架构的健壮性; 提升监控的广度和深...

    文章 中间件小哥 2019-02-28 1872浏览量

  • 根本原因分析 关键事件关联 IT运维有序发展——中国联通通讯集团

    ·案例背景    中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。 随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状...

    文章 技术小美 2017-11-09 1475浏览量

  • 黑客与宕机

    相信凡是与计算机高频亲密接触的人,都遇到过系统无响应,或突然重启的情况。这样的情况如果发生在客户端设备,如手机,或者笔记本电脑上,且不是频繁出现,基本上我们的解法就是鸵鸟算法,即默默重启设备,然后继续使用,当作什么都没发生过。 但是,如果这样的问题发生在服务端,比如运行微信、微博后台程序的虚拟机或...

    文章 茶什i 2020-07-17 652浏览量

  • MySQL数据库的几种常见高可用方案

    随着人们对数据一致性的要求不断的提高,越来越多的方法被尝试用来解决分布式数据一致性的问题,如MySQL自身的优化、MySQL集群架构的优化、Paxos、Raft、2PC算法的引入等等,本文介绍MySQL数据库的几种常见高可用方案。 一、概述 我们在考虑MySQL数据库的高可用的架构时,主要要考虑...

    文章 云市场转载 2017-04-25 12312浏览量

  • Mocha BSM应用管理——Portal监控与管理

    业务需求与挑战 Portal给企业带来了三个统一:  统一页面展现  统一资源管理,包括通过LDAP来管理认证和权限信息  统一登入,即Single Sign On (SSO) 这些技术上的创新给客户带来前所未有的方便,但是同时成为一个IT系统的大隐患。如果Portal宕了,几乎所有后台的应...

    文章 技术小美 2017-11-11 873浏览量

  • 智能化网络管理 为企业信息化保驾护航

         随着目前信息化突飞猛进的发展,科技改变了我们的生活,提高了我们工作的效率,甚至还能通过准确的数据分析帮助我们进行各类的管理。IT技术已经成为了我们工作和生活中不可缺少的重要工具。IBM公司曾经提出了“智慧地球”的远大目标,并受到美国总统奥巴马大力的赞赏,甚至将此概念作为美国在今后继续保持...

    文章 技术小美 2017-11-08 763浏览量

  • 系统设计之——架构师职责和设计原则

    1.架构师职责 分布式存储系统架构师的工作不仅在于整体架构设计,还需要考虑清楚关键实现组节,做到即使只有自己一人也可以把系统做出来,只是需要花费更多的时间而已。 架构师的主要工作包括: 1)权衡架构,从多种设计方案中选择一种与当前团队能力最为匹配的方案。架构设计的难点在于权衡,架构师需要能够在理解...

    文章 凌洛 2018-11-18 2255浏览量

  • rmq_vs_kafka

    RocketMQ与kafka对比(18项差异) 淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,Linkin开源了Kafka这个优秀的消息中间件,淘宝中间件团队在对Kaf...

    文章 中间件小哥 2016-04-08 4322浏览量

  • 给飞驰的法拉利换引擎 - 谈边做业务边做架构重构(1)

    序言 对一个程序员来说,世界上最痛苦的事情是什么呢? 有的人会说:编码的时候产品改需求! 有的人会说:看别人不知所云的代码! 有的人会说:定位一个百年不遇千年难寻的线上不定时偶尔出现的bug! 有的人会说:找不到女(男)朋友! 。。。。。。。。。。。。。。。。。。。。。。。。。。 但我要说,这些痛...

    文章 华仔爱技术 2016-05-12 7348浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸多有代表...

    文章 技术小能手 2017-06-19 3441浏览量

  • 【IaaS&PaaS】为什么选择PaaS?

    何为PaaS 地球人都知道PaaS就是Platform as a Service的缩写,但到底什么是PaaS呢? 假如我们现在需要一个业务,提供一个很简单的"hello world"服务,那么需要的资源有哪些呢,看下图: IaaS&PaaS覆盖图 从最底层的IDC、机房、网络、服务器,到...

    文章 晚来风急 2017-08-02 3434浏览量

  • 遵循ITIL流程框架,运维工作进入规范化新纪元——黑龙江远大购物中心

    · 案例背景     随着黑龙江远大购物中心IT网络系统规模的不断扩大,设备数量和各种应用软件系统的逐渐增多,IT系统软硬件设备的故障和隐患也越来越多。商场的IT运维人员处于一种“救火队员”的工作状态,是哪里出现问题,就去哪里救火解决问题。因此,建设面向商场各项业务系统的IT综合服务管理平台,实现...

    文章 技术小美 2017-11-14 1042浏览量

  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    作者 | 周涛  阿里云技术专家来源 | 阿里巴巴云原生公众号阿里巴巴节点运维的挑战在阿里巴巴的场景下,做节点运维面临的挑战主要来自于这几个方面:规模、复杂性、稳定性。首先是规模大。从 18 年第一个集群的搭建,到现在线上共运行着数百个 ASI 集群、数十万个节点,其中单集群的节点数最多有超过1万...

    文章 阿里巴巴云原生小助手 2021-03-11 545浏览量

  • 【技术干货】云端Windows的运维实践

    云端Windows的运维实践 云端不仅拥有便捷、高效、可灵活拓展、高数据可靠性的优势,而且,还可以享受驻云提供的7x24小时运维服务。说起云端Windows运维实践,我们不得不先说下云端的好处。 介绍完云端的好处,那我就来说一说我在云端Windows的运维实践。 打造军营之云上部署 ...

    文章 驻云科技 2016-07-04 5337浏览量

  • linux 性能监控工具——NAGIOS 和 OVO

    Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。 Nagios是一个监视系统运行状态和网络信息的监视系统。N...

    文章 长烟慢慢 2012-12-17 1316浏览量

  • 如果故障选择了你……

    作者 | 叶飞、穹谷 导读:总以为混沌工程离你很远?但发生故障的那一刻不是由你来选择的,而是那一刻来选择你,你能做的就是为之做好准备。混沌工程在阿里内部已经应用多年,而ChaosBlade这个开源项目是阿里多年来通过注入故障来对抗故障的经验结晶。为使大家更深入的了解其实现原理以及如何扩展自己所需要...

    文章 阿里巴巴云原生小助手 2020-09-11 929浏览量

  • 系列文章:云原生Kubernetes日志落地方案

    在Logging这块做了几年,最近1年来越来越多的同学来咨询如何为Kubernetes构建一个日志系统或者是来求助在这过程中遇到一系列问题如何解决,授人以鱼不如授人以渔,于是想把我们这些年积累的经验以文章的形式发出来,让看到这篇文章的同学能少走弯路。这个系列文章定位为长篇连载,内容偏向落地实操以及...

    文章 元乙 2019-09-08 10421浏览量

  • 玩转ECS第3讲 | ECS自助服务之智能诊断和自动化修复

    演讲嘉宾简介:滕圣波(云普),阿里云高级技术专家,2018年5月加入阿里云,作为架构师搭建了ECS的事件体系,同时也是阿里云的官方自动化运维平台-运维编排服务的主架构师之一,目前负责ECS智能自治服务、云桌面等领域。在加入阿里云之前,是VMware中国研发中心终端用户计算部门的架构师,拥有北京邮电...

    文章 阿里云弹性计算 2020-10-28 1555浏览量

  • 网络“高速公路”首秀双11 | 探秘阿里巴巴HAIL数据中心网络

    对于技术人员而言,每年的双11都是一次技术盛宴,是对系统性能的极致挑战,对系统稳定性的终极考验。从2009到2018这十年间,交易额达到今天的2135亿,每秒订单创建的峰值也是屡创新高,对于攻城狮来说,这不仅仅是数字的飞跃和世界记录的刷新。今天这个超级数字的背后,是交易、搜索,到中间件、存储、数据...

    文章 技术小能手 2018-11-22 2120浏览量

1 2 3 4 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT