• 首次揭秘!​春晚活动下快手实时链路保障实践

    Flink 的交互组件包括 Yarn,HDFS,Kafka,Zookeeper,我们逐一的对每个组件进行故障排除。它们各自的风险排除步骤,如下图中的表格所示。故障排除完了之后,就需要在真实的场景中进行故障演练。主要的演练方法就是...
    文章 2020-06-29 570浏览量
  • 百度使用自主研发系统工具hdoctor 使SATA盘返修率低于...

    包括潜在故障扇区修复、文件系统坏块屏蔽、硬盘及阵列状态设置校正、硬盘状态未就绪或超时的处理、数据/硬件故障排除、盘符前后漂移复位等常见的运维故障处理。而在未使用hdoctor的情况下&xff0c;因业务稳定性要求&...
    文章 2021-11-10 13浏览量
  • 《机械制造业智能工厂规划设计》——第3章 机械制造业...

    同时,在运行过程中还能自行进行故障诊断,并具备对故障自行排除、自行维护的能力。这种特征使智能制造系统能够自我优化并适应各种复杂的环境。GE公司的航空发动机就具有远程在线监控、故障诊断、自维护和自学习的...
    文章 2017-09-04 1633浏览量
  • 10秒自动切换 浪潮服务器让深交所新一代交易系统不惧...

    深交所的可用性实测结果表明,交易系统在面对一般硬件错误、主中心故障时,可在10秒内完成自动切换恢复,灾备切换时间可完全控制在3分钟以内,相比原有系统缩短了80%以上,保证了整个系统的可用性。深交所信息技术...
    文章 2017-08-02 1263浏览量
  • 虚拟机存储延迟 究竟是什么原因?

    存储子系统中过多的压力会影响存储性能,在存储接口,存储控制器或在存储网络的某个地方有太多交通争用。技术人员经常通过控制存储环境的变化来隔离性能问题。例如,尝试将备受折磨的VM迁移到另一个存储位置,如在...
    文章 2017-07-05 850浏览量
  • 关于QingCloud故障全过程及IDC防雷详解

    目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;在出现全部设备重启等极端故障情况下,更...
    文章 2017-08-02 1427浏览量
  • 浩鲸科技基于ChaosBlade的混沌工程实践

    故障节点将被排除出可用节点列表。短暂 tps 下降后&xff0c;消息发送恢复正常 tps。演练中稳定性异常&xff1a;节点 hang 住后&xff0c;tps 骤降为 0&xff0c;不符合预期&xff1b;改进成果&xff1a;1.客户端引入熔断机制&xff0c;...
    文章 2021-08-30 247浏览量
  • 从卖产品到卖服务 智恒科技挑战“一锤子买卖”

    “管理人员无需掌握多种维护技能,也不用操控很多页面的监控,在一台设备上就可以实现应用交付、DDoS防护、用户访问控制等多个功能,降低了设备故障排除的复杂性。杨峰补充道。智恒科技技术总监 杨峰 据了解,Galaxy...
    文章 2017-08-01 1111浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障的原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2016-05-05 4907浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障的原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2017-11-08 1017浏览量
  • IT运营是IT运维的下一个出口?

    最初,为保证IT系统的正常运维,大多数企业被动地进行故障排除以及软硬件的维护。而如今,越来越多的企业主动的进行IT运营维护服务,对系统进行运营管理,未雨绸缪,防患于未然。伴随云计算、大数据等热门技术的发展...
    文章 2017-09-01 1197浏览量
  • 一个文艺IT运维的表白

    原来,公司IT上了全新一代戴尔PowerEdge服务器,使用戴尔服务器管理工具Open Manage Essentials结合嵌入式远程管理卡iDRAC,自动管理日志一目了然,而且可以自动告警,故障轻松排除——兔子洞一出,普通IT运维立马...
    文章 2017-07-04 1184浏览量
  • 技术干货|SDN controller高可用之路

    如果SDNcontroller出现单点故障,这样整个网络系统都会失去控制,甚至会带来不可逆的灾难。在我们设计SDN controller的部署模式的时候,就需要充分考虑SDNcontroller的单点问题。目前也有一种常用的手动去解决...
    文章 2017-07-03 1331浏览量
  • 商用SDN必经门槛:SDN Controller的高可用性研究(附...

    如果SDNcontroller出现单点故障,这样整个网络系统都会失去控制,甚至会带来不可逆的灾难。在我们设计SDN controller的部署模式的时候,就需要充分考虑SDNcontroller的单点问题。目前也有一种常用的手动去解决...
    文章 2017-07-03 1014浏览量
  • 存储新品:初志科技推出E系列磁盘阵列产品

    清晰记录与存储系统相关的事件和错误日志,有助于第一时间对系统进行维护和故障排除;第七、绿色环保硬件设计。配置80PLUS认证供电单元,有效电能转化率不低于80%,动态冷却系统随环境温度变化而调整散热风扇转速,...
    文章 2017-08-09 1111浏览量
  • 微数据中心如何为未来企业提供竞争力?

    更大、更复杂的数据中心需要更复杂和更昂贵的管理及故障排除工具。它们也占用了更多的物理空间,这也是造成不动产成本上升的原因。然而,分配IT资源到不同的地方将增加管理上的挑战,企业需要跟踪所有的基础设施和...
    文章 2017-07-10 842浏览量
  • 饿了么交付中心语言栈转型总结

    这部分压力应该是随着系统验证完毕是可开关的,压力大小应随系统的表现可随时调节。不至于因为验证拖垮了生产应用。所以我们对比对的基本要求是:能一键开关,可监控可追溯。除了这些共性,具体还应做到以下几点: ...
    文章 2019-11-08 2500浏览量
  • 区块链如何改变AI?

    由于数据流部分可用,因此它还有助于降低故障排除和查找异常数据集的压力。最后,区块链与不变性同义,这意味着数据是可追踪和可审查的。对数据和模型使用的控制 这是整合区块链和人工智能的一个非常重要的方面。...
    文章 2018-04-20 8376浏览量
  • 说说云计算时代,运维人员会踩到哪些坑?

    企业根据业务来分配和释放资源,运维人员不仅需要一个强大的控制系统来控制对网络流量、CPU利用率、进程、内存等等节点,还需要一个资源管理系统来管理这些资源的生命状态,还有权限管理,就像AWS的IAM一样。...
    文章 2017-08-02 1909浏览量
  • 区块链如何改变人工智能(AI)?

    由于数据流部分可用,因此它还有助于降低故障排除和查找异常数据集的压力。最后,区块链与不变性同义,这意味着数据是可追踪和可审查的。对数据和模型使用的控制 这是整合区块链和人工智能的一个非常重要的方面。...
    文章 2018-04-17 7164浏览量
  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    Durabilit:事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。分布式一致性 CAP 分布式环境下,我们无法保证网络的正常连接和信息的传送,于是发展出了 CAP/FLP/DLS 这三个重要的理论: CAP:分布...
    文章 2019-10-16 6391浏览量
  • 2017年5个最佳网络监控工具 你知道哪些

    另一个令人印象深刻的是,EventSentry利用你的数据进行故障排除,有助于轻松解决性能问题。Pulseway 易于使用的网络监控解决方案 平台:桌面、移动设备|特点:实时通知|仪表板:Yes|免费试用:是 Pulseway是一个易于使用...
    文章 2017-07-04 1093浏览量
  • 2017年5个最佳网络监控工具 你知道哪些

    另一个令人印象深刻的是,EventSentry利用你的数据进行故障排除,有助于轻松解决性能问题。2.Pulseway 易于使用的网络监控解决方案 平台:桌面、移动设备|特点:实时通知|仪表板:Yes|免费试用:是 Pulseway是一个易于...
    文章 2017-08-01 1041浏览量
  • 区块链如何改变AI

    由于数据流部分可用,因此它还有助于降低故障排除和查找异常数据集的压力。最后,区块链与不变性同义,这意味着数据是可追踪和可审查的。对数据和模型使用的控制 这是整合区块链和人工智能的一个非常重要的方面。...
    文章 2018-02-27 7006浏览量
  • IT运营是IT运维的下一个出口?

    最初,为保证IT系统的正常运维,大多数企业被动地进行故障排除以及软硬件的维护。而如今,越来越多的企业主动的进行IT运营维护服务,对系统进行运营管理,未雨绸缪,防患于未然。一、IT运维的现状 目前,IT运维工具...
    文章 2017-10-03 1188浏览量
  • 高密度数据中心内的配电即系统

    故障排除 相当多的情况下,数据中心的运营维护工作主要都是“救火”。当紧急情况通过报警显示时,第一时间了解导致报警的紧急情况的进展变得非常重要。高电流、断路器、设备——这些对于试图最大限度地维持数据中心...
    文章 2017-07-03 789浏览量
  • OSS服务监控、诊断和故障排除

    对于这一类问题,用户需要调整客户端程序中的重试策略,采用退让机制,这样不仅可以有效避免因为优化或者升级等系统操作(如为了系统负载均衡进行分区迁移等)暂时导致的服务不可用问题,还可以避开业务峰值的压力。...
    文章 2016-05-19 29689浏览量
  • 如何定位性能瓶颈

    如果观察到如上图的内存使用情况,在每次Full GC后,占用的内存都没能恢复到原来的水平,如果在压力撤除一段时间后,内存依旧不能恢复,那么十有八九当前系统存在内存泄漏。3.3 磁盘I/O 通常情况下,磁盘是计算机中...
    文章 2017-03-19 1468浏览量
  • 铁道部新客票系统的设计(三)

    操作系统故障 机房断电 这些故障都会导致内存数据丢失,余票数据都丢失了 我就知道我所在的公司遇到的变态的情况如下: 机房无故断电,网卡故障,磁盘写入失败, 经常遇到的情况是:jvm crash,内存泄漏,这些会导致...
    文章 2014-01-10 1051浏览量
  • sysAK(青囊)系统运维工具集:如何实现高效自动化运...

    还自动分析内存压力、cpu 压力、IO 压力系统错误&xff0c;并将这些因素和进程栈进行关联&xff0c;跟当前进程对照&xff0c;上下文结合&xff0c;给出最后精确的 Load 异常原因&xff0c;让运维人员直接根据这个作出决策。内存...
    文章 2021-11-25 91浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化