• 《路由设计的优化》一1.3 可靠性和弹性

    那么正常运行时间将达到99.99997%),如果网络只有5台设备,那么平均每年只有1台设备出现变更或故障,但是如果网络拥有500台设备,那么平均每年将有100台设备出现变更或故障,也就是平均每3天就会出现一次设备变更或...
    文章 2017-05-02 1174浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4692浏览量
  • 《日志管理与分析权威指南》一1.2.1 什么是日志数据

    例如,Web服务器一般会在有人访问Web页面请求资源(图片、文件等等)的时候记录日志。如果用户访问的页面需要通过认证,日志消息将会包含用户名。这就是日志数据的一个例子:可以使用用户名来判断谁访问过一个资源。...
    文章 2017-07-03 1122浏览量
  • SQL Server DBA工作内容详解

    Microsoft SQL Server 2008系统提供了网络管理工具和服务,DBA应该借助这些工具进行服务规划和管理网络操作。任务十一:高可用性和高可伸缩性管理。作为一个DBA,必须保持系统具有高可用性和高可伸缩性。可用性是一...
    文章 2012-03-14 764浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    通常情况下,IP地址冲突是由于网络管理员IP地址分配不当,或其他用户私自乱设置IP地址所造成的。故障解决 由于网卡的MAC地址具有唯一性,因此可以请网管借助于MAC地址查找到与你发生冲突的计算机,并修改IP地址。...
    文章 2018-10-25 1427浏览量
  • SQL Server DBA工作内容详解

    Microsoft SQL Server 2008系统提供了网络管理工具和服务,DBA应该借助这些工具进行服务规划和管理网络操作。任务十一:高可用性和高可伸缩性管理。作为一个DBA,必须保持系统具有高可用性和高可伸缩性。可用性是一...
    文章 2017-07-03 1733浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2016-05-05 4854浏览量
  • 图解故障服务器下线:关于阿里云MongoDB高可用的探秘

    而在Mongos一处则略有不同,因为Mongos是一个相当轻量的实例,不存在大量的数据缓存,至多就是本信息或者一些VIP的挂载,在它出现故障时,系统首先尝试能不能拉起一个新的实例,如果机器被打标下掉,它就直接到...
    文章 2017-03-28 8118浏览量
  • ERD2005中文版

    总之,当你的系统出现了问题,进不去了,不管是什么原因或情况,你都可以利用ERD Commander 2005来解决,ERD Commander 2005更是提供了一个傻瓜式的故障解决向导帮你找出更加适合的解决方案!赶快用用看吧!整个 ERD ...
    文章 2017-11-27 1149浏览量
  • 高可用系统设计精要:定个能达到的小目标,比如先读完...

    这个方案一般会伴随着节点间的“心跳机制”,而且还会动用到SAN(Storage Area Network)或是本地的分布式存储系统,还会动用虚拟化技术来做虚拟机的迁移以降低宕机时间的概率。这个解决方案完全就是一个“全栈式的...
    文章 2017-05-02 1417浏览量
  • 如何选择网管软件呢?

    所以,网管系统如果仅仅达到了“出现问题后及时发现并通知网管员”的程度是远远不够的,这种被动式的管理必然被淘汰,而主动式的网络管理式网管系统的发展方向。总结 一款好的网管软件应该具有操作简便、全面监测...
    文章 2017-11-01 908浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4849浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 933浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1853浏览量
  • 分布式系统:CAP 理论的前世今生

    正常情况下分布式系统各个节点之间的通信是可靠的,不会出现消息丢失或者延迟很高的情况,但是网络是不可靠的,总会偶尔出现消息丢失或者消息延迟很高的情况,这个时候不同区域的节点之间在一段时间内就会出现无法...
    文章 2019-04-28 2263浏览量
  • 良好架构设计中的可靠性:高可用、容错、灾难恢复

    一般设计原则为:测试恢复规程,自动故障恢复,横向扩展以提升总体系统可用性、多钟小资源代替大资源,不再依靠猜测确定容量需求,自动管理变更。在我们讨论可靠性和阅读相关文献的时候,我们经常注意到以下几个...
    文章 2019-05-12 2973浏览量
  • Hadoop HDFS概念学习系列之HDFS Block(八)

    然后,客户端把文件名和Block索引发送给Master节点,Master节点将相应的Block标识和副本的位置信息返回给客户端,客户端用文件名和Block索引作为key缓存这些信息,之后客户端发送请求到其中的一个副本,一般会选择...
    文章 2017-11-21 1172浏览量
  • 《日志管理与分析权威指南》一2.2.3 日志内容

    日志也能告诉某些系统出现故障或者将要出现故障,例如磁盘错误。日志还能告诉你哪些工作正在正常进行,并给出资源利用和性能的相关信息。日志还可能包括状态改变、启动和停止等等信息。日志有时能告诉你入侵尝试的...
    文章 2017-07-03 1529浏览量
  • IBM和SAP合力打造美国的物联网时代

    那到底什么是物联网呢,简而言之,物联网是通过在物品上嵌入电子标签、条形码等能够存储物体信息的标识,通过无线网络的方式将其即时信息发送到后台信息处理系统,而各大信息系统可互联形成一个庞大的网络。...
    文章 2017-07-03 865浏览量
  • 阿里云文件存储(NAS)助力业务系统承载双十一尖峰...

    标准的NFS挂载下,如果服务端出现故障或者网络发生故障,客户端访问文件存储将是完全hang住,直到服务或者网络恢复为止。针对这个问题,消息系统进行了相应改造,业务系统对消息的一致性保障进行了优化,可以支持...
    文章 2018-11-27 2032浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    2017年2月份国内的一家经常被用来测试网络连通性的友商也出现故障,工信部迅速关注,并紧急约谈了相关公司。同时下发紧急通知要求BAT等各重点互联网企业吸取教训,业界一片哗然。这时候,有一家公司显得特别淡定,...
    文章 2017-06-19 3717浏览量
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    比如硬件故障(内存板卡损坏、磁盘坏道、网卡控制器故障)、软件故障(软件 OOM、进程句柄泄露、IO hang、磁盘满、网络断链)、机房断电跳闸、光缆故障系统负载过高等。由此我们抽象了几类故障层次。瞬时故障...
    文章 2021-02-02 3180浏览量
  • 网络取证原理与实战

    管理员张利发现UNIX系统中同时出现了多个inetd进程,这引起了他的警觉,在随后的调查取证中又发现了大量登录失败的日志记录,系统出现什么异常情况呢?案例七:遭遇溢出攻击 案例八:真假root账号 案例九:为...
    文章 2016-05-25 4357浏览量
  • 用大白话聊聊分布式系统

    一般分布式系统要设计成被允许出现部分故障而不影响整个系统的正常使用。并发:分布式系统的目的,是为了更好的共享资源。那么系统中的每个资源都必须被设计成在并发环境中是安全的。透明性:分布式系统中任何组件的...
    文章 2017-03-05 5880浏览量
  • ITIL部署实施系列之变更管理

    变更管理目的:标准化的方法和程序用于有效快速处理变更,所有的服务资产变更及它们的配置都被记录在配置管理系统中,优化整体商业风险。变更管理目标:确保变更被记录然后被评估、授权、决定优先级、计划、测试、...
    文章 2017-11-27 1345浏览量
  • Linux之系统故障分析与排查

    内核及系统日志:这种日志数据由系统服务syslog统一管理,根据其主配置文件"/etc/syslog.conf"中的设置决定将内核消息及各种系统程序消息记录到什么位置。系统中有相当一部分程序把自己的日志文件交由syslog管理,...
    文章 2017-11-16 1752浏览量
  • 分布式主动感知在智能运维中的实践

    但这样处理,下次可能还会出现同样的问题。如果将故障放到ITSM部分进行分析,就能让问题得到更根本的解决。发现故障后,通过请求管理把这件事告诉后台人员,后台人员看到请求后将故障升级为“事件”并提交给研发人员...
    文章 2019-07-09 2293浏览量
  • 负载均衡连载之五

    如果用windows的word之类的工具编辑这两个文件,上传到linux服务器时,会出现格式问题,而导致运行错误。当然,可以用dos2unix修正格式,或者在vi的命令模式下,以“:set ff=unix”方式转换格式。本文转自sery51CTO...
    文章 2017-11-08 876浏览量
  • 浅谈IT运维

    决定使用什么操作系统也是件很重要的事,用windows,linux,aix还是freebSD,将来如何升级都对企业的运维产生着深远的影响,一般来讲运维人员建议管理层使用自己所熟练的操作系统,笔者就一直力建RHEL。程序使用何...
    文章 2017-11-20 1430浏览量
  • 《游戏设计师修炼之道:数据驱动的游戏设计》一2.3 ...

    会出现什么问题呢?它将会使系统更加复杂。跟GDI+API例子类似,更多的复杂性带来更多的故障。如果新功能对该产品的成功非常重要,那么从项目一开始,就应该重视系统中特定部分的安全性。至少,关键组件的可靠性和...
    文章 2017-08-01 1072浏览量
1 2 3 4 ... 32 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化