• 东软SOC怎样维护社保行业的数据综合运维

    想提高对人力社保系统运行状况的实时监控能力、系统异常情况的发现和快速响应能力、及时有效的发现和排除故障隐患、提高系统可靠性、尽量减少系统故障对业务的影响,社保系统最需要的是一套靠谱的监控平台软件——...
    文章 2017-08-01 847浏览量
  • 微服务架构可视化平台实践

    借助架构感知采集到的架构数据,在识别了用户使用的组件(我们对mysql、redis、mq等的统称)后,我们借助这些组件以及与组件匹配的故障库,可以给用户自动推荐这些组件可能遇到的故障,配合我们提供的评测服务让用户...
    文章 2018-11-29 1830浏览量
  • 如何在一分钟内实现微服务系统下的架构可视化

    借助架构感知采集到的架构数据,在识别了用户使用的组件(我们对MySQL、Redis、MQ等的统称)后,我们借助这些组件以及与组件匹配的故障库,可以给用户自动推荐这些组件可能遇到的故障,配合我们提供的评测服务让用户...
    文章 2018-11-28 4383浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    Flink 的交互组件包括 Yarn,HDFS,Kafka,Zookeeper,我们逐一的对每个组件进行故障排除。它们各自的风险排除步骤,如下图中的表格所示。故障排除完了之后,就需要在真实的场景中进行故障演练。主要的演练方法就是...
    文章 2020-06-29 570浏览量
  • 数据中心运营的大数据分析与DCIM

    论及运维的可靠性,图3-2是著名的海恩法则,它的含义是一次严重的事故之前可能有1000起事故隐患、300起未遂先兆、29次轻微事故,DCIM的横向数据分析可以帮助运维人员在隐患阶段排除故障的可能。如制冷空调系统的环境...
    文章 2017-09-15 2607浏览量
  • 技术干货|SDN controller高可用之路

    当Master controller出现故障,Slavecontroller通过心跳线感知,马上要求vSwitch切换角色。Slave controller变成Master。等故障的controller重启,角色变回Slave即可。这个方案有一个明显的缺点,同一时间只有一个...
    文章 2017-07-03 1331浏览量
  • 网络维护最佳实践

    这就是为什么我认为需要定期(年度)库存同步,这样你就不会在故障排除过程中发现差距。对于那些了解我的人,我强烈认为你应该管理每个设备和每个界面。盲点是浪费时间。如果许可证的成本太高,那么你的工具就错了。...
    文章 2018-08-29 1155浏览量
  • 商用SDN必经门槛:SDN Controller的高可用性研究(附...

    当Master controller出现故障,Slavecontroller通过心跳线感知,马上要求vSwitch切换角色。Slave controller变成Master。等故障的controller重启,角色变回Slave即可。这个方案有一个明显的缺点,同一时间只有一个...
    文章 2017-07-03 1014浏览量
  • IDC运营的大数据分析与DCIM

    论及运维的可靠性,图3-2是著名的海恩法则,它的含义是一次严重的事故之前可能有1000起事故隐患、300起未遂先兆、29次轻微事故,DCIM的横向数据分析可以帮助运维人员在隐患阶段排除故障的可能。如制冷空调系统的环境...
    文章 2019-07-30 1047浏览量
  • 物联网将如何推动我国的制造业变革

    具体来看,对于产品软件层面出现的运行错误和漏洞,制造企业可以利用产品云和远程控制技术完成“足不出户”的问题诊断和故障排除;对于需要实地作业才能排除的硬件故障,相关监测数据也可以作为故障诊断和维修方案...
    文章 2017-07-03 1950浏览量
  • Dynatrace DPM数字性能管理方案确保安吉星领跑车联网...

    在业务层面,Dynatrace帮助安吉星验证IT服务级别、评估客户影响、系统故障排除、服务级别管理、整合IT资源、提升客户感知以及降低风险。对于今后的发展,车益超表示,安吉星希望能与Dynatrace有更多的合作,从而确保...
    文章 2017-09-04 1527浏览量
  • 如何处理网络基础设施的带外管理?

    Healthe Management,提供对调制解调器的自我健康监控、WAN端口速度控制以及基本和高级日志记录用于故障排除。企业应关注《常见漏洞和披露》以及美国CERT对带外漏洞利用的通告,这些可能是性能监控设备可能忽视的...
    文章 2017-08-01 1248浏览量
  • CPU静默数据错误:存储系统数据不丢不错的设计思考

    二、CPU SDE故障发现过程1 发现问题近期团队开发的两个核心模块在某集群的指定服务器上都发现校验数据异常,由于同时在两个核心模块发现,在排除软件模块问题后,把根因排查方向转向硬件。2 分析定位通过对内存中的...
    文章 2021-07-01 3062浏览量
  • 带你读《思科软件定义访问:实现基于业务意图的园区...

    因为它允许在软件定义访问网络交换矩阵的叠加网络和底层网络部分进行故障排除并分析网络性能。其他解决方案缺少这样的相关性&xff0c;通常无法看到可能影响叠加网络性能的底层网络的通信问题。通过对网络交换矩阵的...
    文章 2021-10-19 10浏览量
  • 带你读《工业物联网安全》之二:工业物联网数据流和...

    这也是安全性和可靠性工程中常用的演绎故障分析方法,用于理解系统如何发生故障,从而找到降低故障风险的方法。FTA最初用于航空航天工业,其对安全保障的要求非常高。对于商用飞机,故障概率为10-9(十亿分之一)...
    文章 2019-11-05 1282浏览量
  • 浅谈云原生架构的 7 个原则

    监控数据的呈现形式应该不仅仅是指标趋势图表、柱状图等,还需要结合复杂的实际应用场景需要,让视图具备下钻分析和定制能力,以满足运维监控、版本发布管理、故障排除等多场景需求。​随着云原生技术的发展,基于...
    文章 2021-08-13 50浏览量
  • 当容器应用越发广泛,我们又该如何监测容器?

    来提高故障排除以及资源管理效率&xff0c;比如通过主动监测内存利用率&xff0c;当资源消耗接近所设定的阈值时通知运维团队对可用 CPU、内存资源耗尽之前添加额外节点。这其中的价值包括&xff1a;及早发现问题&xff0c;以避免...
    文章 2021-08-11 353浏览量
  • 浅谈云原生架构的 7 个原则

    监控数据的呈现形式应该不仅仅是指标趋势图表、柱状图等,还需要结合复杂的实际应用场景需要,让视图具备下钻分析和定制能力,以满足运维监控、版本发布管理、故障排除等多场景需求。​随着云原生技术的发展,基于...
    文章 2021-07-16 7528浏览量
  • 新基建周期中,要让交通数字化成为长期发展引擎

    在公共安全领域新的电磁技术、高清视频与人工智能技术的结合应用,将以无感的形式完成对人和物的安全扫描及比对,排除公共安全风险因素;在网络与数字化安全领域,ICT基础设施的安全非常关键,决定了整个“新基建”...
    文章 2020-06-10 841浏览量
  • 微服务治理实践:如何对单点异常进行自动摘除

    在以上 3 种场景中,由于客户端并不法感知已经出现问题的那些服务端,依然会发送请求到这些机器上,造成业务调用报错,上游的机子将会被下游的某台机子的短暂故障拖垮,造成应用雪崩的风险。面对这种场景,如果仅仅...
    文章 2019-12-16 2645浏览量
  • 闲鱼应用迁移实践

    在做迁移服务梳理的时候,我们就需要初步识别并择出这部分边界外的服务,在代码迁移过程中,也要留意是否有遗漏的没有排除干净的服务。明确迁移粒度,固定迁移的粒度后能够将应用垂直进行拆解,合理规划应用拆分后的...
    文章 2021-10-27 43浏览量
  • 饿了么交付中心语言栈转型总结

    最大努力降低故障风险 平均故障间隔是一个后验时长数据,要做到间隔时长尽可能的长,日常里就需做好发布控制,风险巡检及持续监控等工作。1.发布控制 转型期间新系统服务必须遵循发布sop,饿场发布sop已经形成共识,...
    文章 2019-11-08 2500浏览量
  • 建个数据中心就想发展IDC?没那么简单!

    设备服务:包括主机托管(机位、机架、VIP机房出租)、资源出租(如虚拟主机业务、数据存储服务)以及系统维护(系统配置、数据备份、故障排除服务) 管理服务:包括带宽管理、流量分析、负载均衡、入侵检测、系统漏洞诊断...
    文章 2017-07-03 1055浏览量
  • 数百万台车联网设备同时在线0故障,中瑞集团的云原生...

    最本质的原因是这类产品并不是按照原生的分布式理念进行设计,当性能无法满足业务需求的时候,只有通过垂直提升硬件性能的方式实现,升级过程中对业务有感知,而且性能提升的程度有限,不具备可操作性。Kafka是一个...
    文章 2020-10-28 5530浏览量
  • 阿里云智能-基础产品技术月刊2019年7月

    方便用户快速识别故障的位置,并快速排除故障问题。运维编排服务开展公测,编排自动化打造行云流水般云上体验随着云上客户的规模体量越来越大,客户在大规模实例运维、巡检、故障处理等方面遇到了诸多挑战,基础设施...
    文章 2019-08-09 2946浏览量
  • 互联网泛娱乐直播安全的解决之道

    完善的内部监控,可以在故障发生前提前排除隐患,秒级生效的故障切换能力,可以做到观众无感。基础架构稳定了,在流量洪峰来临时,更多是弹性资源的快速补充,阿里云的资源储备在业界是数一数二的,快速的资源建设...
    文章 2021-04-01 491浏览量
  • 每秒8.8亿次请求!让数据存得起,看得见-云原生多模...

    为了让应用开发者/DBA更放心的使用lindorm,LDInsight 提供了7*24小时的数据库异常诊断功能,自动诊断生产运维过程中的常见问题、排除潜在风险,比如慢请求、热点、性能诊断、Schema设计、索引推荐等,让用户和DBA...
    文章 2020-11-25 1986浏览量
  • 如何将bug杀死在摇篮里?

    关于测试评价,目前也没有特别好的评价体系,所以最常用的还是代码覆盖率,在工程的pom.xml中引入cobertura,排除不需要计入的第三方class,RDC单测实验室中的代码覆盖率工具会自动统计覆盖率。目前RDC的行覆盖率在...
    文章 2017-06-29 2368浏览量
  • 软件质量没有银弹:阿里巴巴的25个技术实践与坑

    关于测试评价,目前也没有特别好的评价体系,所以最常用的还是代码覆盖率,在工程的pom.xml中引入cobertura,排除不需要计入的第三方class,RDC单测实验室中的代码覆盖率工具会自动统计覆盖率。目前RDC的行覆盖率在...
    文章 2017-06-27 11365浏览量
  • 阿里云智能基础产品技术月刊2019年7月——永不停机的...

    3、默认呈现存在风险、客户端离线、未运行服务器、阿里云/非阿里云等日常运维管理查询操作,快速定位风险源,一眼看清风险态势。云安全中心AK 泄露检测发布,云安全中心与Github官方合作,为用户提供实时泄露检测的...
    文章 2019-12-18 3978浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化