• 云上运行 Hadoop 面临哪些挑战

    Hadoop本身非常复杂,如果Hadoop本身出现点什么问题,则影响作业的运行。这些问题包括但是不仅限于: Master挂 各种日志清理等 节点挂掉,自动补回 Datanode掉线处理 NodeManager掉线处理 Job运行监控报警 负载过...
    文章 2017-08-01 1384浏览量
  • 应对数据中心常见问题的IT监控策略

    未来2年将出现非易失性内存规格(NVDIMM)的存储器,3D XPoint非易失性存储器标准(NVMe)的SSD,高容量SATA SSD和越来越多的网络和集群选择,例如虚拟存储区域网络(SAN),超融合系统和远程直接内存访问链接。...
    文章 2017-07-03 1042浏览量
  • 应对数据中心常见问题的IT监控策略

    未来2年将出现非易失性内存规格(NVDIMM)的存储器,3D XPoint非易失性存储器标准(NVMe)的SSD,高容量SATA SSD和越来越多的网络和集群选择,例如虚拟存储区域网络(SAN),超融合系统和远程直接内存访问链接。...
    文章 2017-08-02 793浏览量
  • 云上运行 Hadoop 面临哪些挑战

    Hadoop本身非常复杂,如果Hadoop本身出现点什么问题,则影响作业的运行。这些问题包括但是不仅限于: Master挂各种日志清理等节点挂掉,自动补回Datanode掉线处理NodeManager掉线处理Job运行监控报警负载过高监控...
    文章 2017-07-03 1261浏览量
  • Dubbo设计分享——实现的健壮性

    过多的报警会让人疲倦,使人对报警失去警惕性,使ERROR日志失去意义。再辅以人工定期查看WARN级别信息,以评估系统的“亚健康”程度。2.日志中,尽量多的收集关键信息 哪些是关键信息呢?出问题时的现场信息,即排查...
    文章 2017-11-21 1161浏览量
  • 饿了么分布式服务治理及优化经验

    报警最常见的基于阈值,阈值这件事情比较痛苦,我们有很多指标,但这个阈值怎么去配,需要很有经验的人才能配好,阈值配小了,你经常收到报警,配太大有可能出问题收不到报警,这个非常痛苦。所以一个同事提出基于...
    文章 2017-11-15 968浏览量
  • 运维工程师笔试题(一)

    2:worker是使用多个子线程,每个线程有多高线程,由于使用的是线程去处理请求,消耗内存小,适合高流量的请求,但是如果某个进程出现问题,那么这个进程下的线程都会出现问题,即稳定性并不是很好。3:event模式 ...
    文章 2017-11-08 3984浏览量
  • 阿里云IoT设备运维基础——监控报警介绍(一)|学习...

    哪些功能模块以及设备运维是怎样的定位和设备运维哪些特点的功能&xff0c;在列的表中有.是还没有将事情做完,是根据业务的需求进行发展的。二、实时监控大盘上面讲解了设备运维的定位&xff0c;接下来讲解监控报警&...
    文章 2022-11-23 17浏览量
  • 如何建设高可用系统

    应用服务器,DNS服务器,SFTP服务器,LBS,缓存服务器,数据库,消息服务器,代理服务器和专线等,如系统通过专线调用对方服务,需要考虑同时拉联通和电信的专线,联通或电信的专线还是有一定概率会出现问题的,但是...
    文章 2017-11-15 1109浏览量
  • 监控服务器Nagios之一 概述及安装

    再说报警功能,如果监控系统发现问题不能报警那就没有意义了,所以报警也是nagios很重要的功能之一。但是,同样的,Nagios 自身也没有报警部分的代码,甚至没有插件,而是交给用户或者其他相关开源项目组去完成的。...
    文章 2017-11-22 895浏览量
  • 如何建设高可用系统

    需要考虑同时拉联通和电信的专线,联通或电信的专线还是有一定概率会出现问题的,但是同时出问题的概率会小非常多。优先使用软负载,使用硬负载兜底。减少依赖 – 减少DNS依赖,减少远程服务依赖,DNS依赖可以尝试...
    文章 2017-03-31 929浏览量
  • 一步步实施 DevOps(三)

    你的企业目前还面临哪些问题(非技术)?例如来自运维的需求,运维团队需要什么呢?合同管理 成本管理 续费管理 问题管理 突发事件管理 环境配置 设备管理 配置管理 自动化部署 监控和报警 备份和恢复 大部分可以用...
    文章 2019-01-03 1795浏览量
  • 虚拟基础设施资源监控的最佳实践

    在环境中的问题将导致出现问题,一个编程循环可以使一个CPU宕机,或者甚至饱和的链接导致网络错误。你必须积极地制定此计划,让系统的正常运行。这意味着需要预测潜在的基础设施尖峰,并有能力处理。考虑下面这个...
    文章 2017-07-05 1297浏览量
  • 分布式集群监控方案

    集群出现问题时及时报警,便于同学及时修复问题;集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动;当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题。二、...
    文章 2017-11-28 2268浏览量
  • 分分钟拯救监控知识体系

    1.发现问题:当系统发生故障报警,我们收到故障报警的信息2.定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析,比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太...
    文章 2017-11-12 2230浏览量
  • ubuntu下nagios配置

    再说报警功能,如果监控系统发现问题不能报警那就没有意义了,所以报警也是nagios很重要的功能之一。但是,同样的,Nagios 自身也没有报警部分的代码,甚至没有插件,而是交给用户或者其他相关开源项目组去完成的。...
    文章 2017-12-20 1640浏览量
  • 老司机的微服务架构实现,照亮你的人生|朱攀

    有些服务不是那么重要,可能只会在某个或某⼏个可⽤区部署,这时候就也可能会出现服务跨可⽤区调⽤。同时也解决了 API 访问安全问题:每个可⽤区建⽴⼀个 VPC,所有的服务都在 VPC 内,VPC 内的 API 调⽤可忽略安全...
    文章 2016-10-24 6595浏览量
  • 云服务器 ECS 监控:监控ECS实例

    除了需要了解我们的常规的监控项如硬件资源、性能、带宽、端口、进程、服务的检测机制之外,还要具备安全意识,比如需要知道哪些服务器可能出现问题,可能被入侵等。另外,需要定义监控策略,包括告警的优先级、告警...
    文章 2017-08-14 5402浏览量
  • 安心过春节 智能家居为安防护航

    无论是回家团聚,有商铺无人看管,还是一家人走亲访友,外出旅行,家里没人看守,亦或是办公室、仓库等重要区域,在春节这个重要节日,安全防范肯定有所松懈,给犯罪分子留下可趁之机,带来的将是巨大的财产损失。...
    文章 2017-07-03 1427浏览量
  • RPC、HTTP、DSF、Dubbo,每个都眼熟,就是不知道有...

    出现问题&xff0c;可能涉及多个服务的回滚&xff0c;互相之间有影响。环境变复杂了&xff0c;增加了测试的复杂度。简单来说&xff0c;分布式帮我们克服了单体带来的瓶颈&xff0c;但是为了分布式服务的稳定性&xff0c;我们需要...
    文章 2022-10-21 23浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    首先,从用户场景方面,针对无法远程连接问题将虚拟化异常、物理机异常、资源争抢受限(入门级的实例中,会出现一台机器上存储资源争抢的情况)、服务控制侧异常等现象根因透露给用户。针对实例无法停止或启动问题,...
    文章 2020-10-28 5898浏览量
  • 安全生产-系统稳定性建设

    因为之前碰到过一个案例,越回滚问题越严重,原因是当时的问题远程缓存异常导致应用启动后出现数据异常,回滚重启后又导致已发布机器本地缓存失效放大了影响面。应急处置故障预防是降低问题发生的概率,不是消灭...
    文章 2022-09-14 619浏览量
  • Python轻应用有哪些过人之处?

    5G给物联网行业带来哪些变化?必须要了解的物联网安全知识 ARMv9能给ARM带来新一轮腾飞吗?(安全篇) ARMv9能给ARM带来新一轮腾飞吗?(人工智能篇) 国产物联网操作系统的出路在哪里?RISC-V架构能否引领物联网...
    文章 2021-08-13 124浏览量
  • 黑客告诉你,315晚会上的智能产品是怎样被黑的|硬创...

    迭代快速的智能硬件,安全需求就会很多,如果没有考虑到安全需求的存在,就有可能会出现安全问题。现在很多黑客们都曝光了很多智能硬件的问题,研究者都对IOT这块兴趣度很高,我猜后面的安全问题可能会很多的被曝光...
    文章 2017-08-09 1162浏览量
  • 飞天5K实战经验:大规模分布式系统运维实践

    一般来说,出现如此问题时,开发人员和设计人员将原因归结为用户不会使用或使用不当。言下之意就是,产品层面很难避免,也无法彻底解决。但站在运维角度来看,应该有更好的解决方案,一方面不能因为用户的一个作业...
    文章 2016-12-18 5210浏览量
  • 古瑞瓦特监控系统为安装商解除后顾之忧

    光伏系统出现故障时,先查看出故障逆变器的报警信息,再根据信息找到相应的故障处理方法,大部分问题都可以当场解决。如果还解决不了,可以选择向客服提问,服务器端在线客服耐心解答,如果是系统软件问题,可以...
    文章 2017-07-03 1695浏览量
  • 第一章 zabbix入门简介(更新中)

    严格来说,线上的服务器没有监控,是不允许上线的,在真实的生产环境中,我们运维工作,需要时时刻刻了解我们线上平台的运行状态,服务器出现故障的时候方便我们更直观的去依靠监控平台去排除问题。常用的开源监控...
    文章 2017-11-28 1517浏览量
  • SMS 2003升级到SCCM 2007

    二、升级前的准备1、评估升级任务在升级前我们需要评估下现有环境有哪些不达标并进行修复,这时我可以使用SCCM 2007(这时我使用的SCCM 2007的版本是SP1版,因为SP1版本对系统的要求更高,且扫描出的问题更多,同时...
    文章 2017-11-09 1076浏览量
  • 模拟监控VS真实用户监控!应用性能监控工具大PK

    5.7×24小时监控如果非工作时间或其他低流量周期出现问题,模拟监控可在对用户、收益和品牌效应产生负面影响之前,帮助你快速识别、隔离并解决问题,将损失降到最低。6.跨地域分析基线和性能趋势结合模拟监控可以...
    文章 2016-01-04 2699浏览量
  • 如何从零搭建一个自动化运维体系

    最终由服务器端检查你收到了哪些文件片段,然后通知客户端补传一些没上传的片段就可以了。基于这种方式能规避很多因为网络抖动或网络延迟比较大而导致的问题。当然,在客户端做流量控制也是可以的。在遇到问题的...
    文章 2018-11-01 2362浏览量
1 2 3 4 ... 8 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化