• 关于

    领域工程宕机的原因

    的搜索结果
  • DevOps:软件架构师行动指南1.7 障碍

    这意味着要去检查并排除宕机的原因。仔细检查是需要花费时间的。而且,避免变更也是减少宕机的一个原因。“没有问题就不要修复”是一个几十年来广为人知的说法。一般来说,开发人员受到的激励是做出变更(发布新代码...

    文章 华章计算机 2017-05-02 1470浏览量

  • 从单体应用转为分布式系统:来自Deliveroo的实践

    大型单体程序也会导致可靠性下降,因为出现一个问题就可能使得所有的服务宕机。Deliveroo的解决方案是转向分布式,实现中采用了一种将单体程序切分为三大类“十二要素”(Twelve-Factor)应用的方法。这三类应用分别...

    文章 boxti 2017-07-05 1019浏览量

  • 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    5 月 13 日,特斯拉服务系统宕机,市值一夜间蒸发 2800 亿。6 月 3 日苹果 iCloud 云存储服务器故障,用户无法登录。8 月 27 日,思科员工删除虚拟机,导致思科损失 1600 万。12 月 25 日,谷歌服务全球性宕机。频发...

    文章 开发者小助手 2021-07-06 141浏览量

  • 域名特惠专场,热门顶级域名低至1元,适用企业/个人域名注册!

    域名低至1元起,更有服务器低至0.55折

    广告

  • Dubbo 常见错误及解决方法

    找不到服务,这时候可能有这么几种情况:Provider 服务没启动,或者注册中心(比如 ZooKeeper,Nacos,Consul)宕机了。Dubbo 的服务配置有误差,必须保证服务名,组别(默认是 Dubbo),version 三者都正确。访问的...

    文章 中间件小哥 2019-10-12 4007浏览量

  • 饿了么技术往事(上)

    系统跟不上业务发展速度的时候,核心系统经历过一些间歇性宕机的尴尬阶段。一些刚刚开始开拓的业务系统,也经历了系统刚上线就连续宕机,不得不临时放慢业务的阶段。但是这个过程也有收获,很多开发工程师线上排障...

    文章 中间件小哥 2020-10-26 7063浏览量

  • 请讲」小i机器人朱频频:会话AI将成为主流人交流...

    “行业还是存在一些问题的,例如机器人会在行走的过程中因路径规划不精确、地上有障碍物、被人故意挡住等而卡停在原地,或者在会话时遇到‘超纲’的问题而‘宕机’,但这些都是不要紧的,而且还有很多好处。...

    文章 行者武松 2018-03-01 727浏览量

  • 请讲」小i机器人朱频频:会话AI将成为主流人交流...

    “行业还是存在一些问题的,例如机器人会在行走的过程中因路径规划不精确、地上有障碍物、被人故意挡住等而卡停在原地,或者在会话时遇到‘超纲’的问题而‘宕机’,但这些都是不要紧的,而且还有很多好处。...

    文章 行者武松 2018-03-06 958浏览量

  • 应用运维——《应用智能运维实践(试读版)》

    系统故障和宕机频率快速升高&xff0c;人工运维成本飙升。著名管理咨询公司麦肯锡在名为Measuring the Net’s Growth Dividend的分析报告中指出&xff0c;2013—2025年&xff0c;互联网将帮助中国的GDP增长率提升0.3&xff5e;1....

    文章 开发者小助手 2021-07-06 280浏览量

  • vmcore自动分析工具

    提取vmcore中宕机原因的特征,从而实现后续对大量的vmcore文件进行相似度分析,识别相同问题的vmcore的目标。3)考虑是否可以将机器学习引入到vmcore;将机器学习用于提取vmcore特征、训练vmcore特征匹配模型可能是...

    文章 稻草人csp 2019-09-29 2134浏览量

  • 大促场景系统稳定性保障实践经验总结

    江煵在分享中提到,今年我们在新闻里听到了很多比较大的宕机事件,宕机的原因其实都很典型,删库跑路、被攻击、没有做好容量规划或者弹性能力不足、系统更改等。宕机后果还是比较严重,比如某SaaS服务商直接经济损失...

    文章 中间件小哥 2020-11-12 5354浏览量

  • 《架构师》反思:系统可靠性

    但是可能会导致“单点错”,即系统中某一部件或某个应用程序发生故障时,导致所有系统全部宕机。如磁盘阵列如果出错,可能会导致存储的数据全部丢失。特点:性能较高、可能导致单点错误。(3)光纤通道双机双控集群...

    文章 胡庆访 2016-05-05 4750浏览量

  • 徐葳:生物医学影像处理、分布式系统与数据共享平台

    但是大数据系统用的是非常便宜的机器,系统内任何一个机器宕机都不会影响整体的运行,这是谷歌设计MapReduce系统的核心。因为只有设备便宜才能跑成规模,价值密度低是大数据的典型特性,成规模的廉价设备使得处理...

    文章 小旋风柴进 2017-05-02 1023浏览量

  • 6 个 K8s 日志系统建设中的典型问题,你遇到过几个?

    环境的动态性变强,在 Kubernetes 中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果 Pod 销毁后该 Pod 日志就不可见了),所以日志数据必须实时采集到服务端。...

    文章 阿里巴巴云原生小助手 2019-09-18 4136浏览量

  • 系列文章:云原生Kubernetes日志落地方案

    环境的动态性变强,在Kubernetes中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果Pod销毁后该Pod日志就不可见了),所以日志数据必须实时采集到服务端。...

    文章 元乙 2019-09-08 10710浏览量

  • 数百万台车联网设备同时在线0故障,中瑞集团的云原生...

    但在这种情况下,RocketMQ集群处于一种比较脆弱的状态,需要使用者想办法进行系统性的补救,以确保在下一次出现节点宕机的时候,RocketMQ集群依然能够稳定得运行。比如当一个Master Broker节点出现故障后,虽然Slave...

    文章 中间件小哥 2020-10-28 4443浏览量

  • Kubernetes 火了!是时候扒一扒它的身世了

    惯例是,大家会使用那些在崩溃时不会在容器内引起宕机的应用程序。Kubernetes 的未来 即使有这样那样的缺点,也不阻挡不了像 Goldman Sachs、Box、SAP 和纽约时报等公司使用 Kubernetes 的步伐,他们将 Kubernetes ...

    文章 玄学酱 2017-08-02 1061浏览量

  • 我们问了Yann LeCun等16个顶级数据科学家,这是他们给...

    即使你没有数据科学方面的工作,您仍然可以在宕机时间内探索数据集,并且可以提出问题来询问数据。在我个人的时间里,我琢磨过Reddit的数据。我问自己,“我可以如何通过我拥有或没有的工具来探索Reddit?这很好,...

    文章 技术小能手 2018-05-17 2489浏览量

  • RocketMQ高可用探究:消息存储技术

    云栖社区时间:2020-06-01原文链接:https://yq.aliyun.com/articles/763218RocketMQ是阿里开源的分布式消息中间件,跟其它中间件相比,RocketMQ的特点是纯JAVA实现、集群和HA实现相对简单、在发生宕机和其它故障时...

    文章 SRE团队技术小编-小兰 2020-09-02 1066浏览量

  • 带你读《HBase原理与实践》之一:HBase概述

    因为稳定性的原因,并不建议在生产线上使用1.0.0~1.1.2中间的版本。目前,HBase社区推荐使用的稳定版本为1.4.10。2.x版本是接下来最受期待的一个版本(升级要慎重,请参考社区中的实践),因为最近一两年社区开发的...

    文章 被纵养的懒猫 2019-11-01 3144浏览量

  • 开源AIOps数据中台搭建

    SLA表示客户与服务商之间服务可用性的承诺,一般以服务可用性用时长为维度,例如99.99%可用,表示一个周期(例如一个月)宕机的总体时间不超过0.01%*365天<4.5分钟。有时也表示API错误率占比。IT运维挑战 但是IT...

    文章 成喆 2019-12-31 5504浏览量

  • (IT)这个行当里你应该知道的10个小秘密

    “如果你在周末还需要加班6小时去部署一个软件更新包,以确保工作时间不宕机,你会得到,”因为既然你是带薪休假,就不会再有补休时间。这就是我们花大价钱雇你的原因!9.)用户出的荒唐可笑的错误的责任在你身上 ...

    文章 y0umer 2011-07-28 625浏览量

  • 为什么选择Cassandra

    这意味着节点易于更换,并且也不要求即刻替换宕机节点。7.自主优化 有大量的,不同的参数让你根据自身场景不断的调优,举个例子,如果你是一个重写,读很少的场景,可以修改配置参数成重写系统。参数设置不仅仅是...

    文章 陈江@阿里 2019-08-13 3452浏览量

  • 饿了么交付中心语言栈转型总结

    上表格是业界服务高可用的几个级别的衡量标准,例如:服务可用性是3个9时,全年宕机时长约为8.76天的统计概率。另外,我们需要明确的是不同的系统,不同的场景以及不同的用户规模对系统可用性要求是不一样的。如:...

    文章 中间件小哥 2019-11-08 2390浏览量

  • 阿里巴巴DevOps实践指南(十九)|监管控一体化运维

    系统宕机、数据异常、数据丢失、删库跑路等运维故障和事件层出不穷,这可能给企业带来致命的打击,甚至关乎业务的生死存亡。因此,防范和杜绝高危运维故障是 DevOps 一直不懈追求的目标。在当代众多业务形态和云技术...

    文章 开发者小助手 2021-07-06 186浏览量

  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    接下来,进行数据处理,特征数据进入到实时预测模型中,进行非预测宕机模型、可预测宕机模型、混合模型、高准确率、高召回模型;下一步进入投票模型,投票到各种各样的优先级的sls预测数据中,当precision大于50%时...

    文章 阿里云弹性计算 2020-10-28 1774浏览量

  • 智能化网络管理 为企业信息化保驾护航

    比如说,我们一个核心交换机的端口出现故障,宕机了,那么我们应用部门的管理员就会发现他的应用系统连不上了,服务器管理员会发现他的服务器连不上了,网络部门的人会发现有一个子网掉线了。然后三个部门的人分别...

    文章 技术小美 2017-11-08 799浏览量

  • Spring Cloud Alibaba发布第二个版本,Spring 发来...

    不管是 SchedulerX 服务端还是客户端都是分布式架构设计,任务可以在多台客户端机器里的任何一台机器执行,如果客户端出现宕机的情况,服务端会自动选择正常运行的客户端去执行 Job,每个 Job 在服务端的不同机器均...

    文章 中间件小哥 2018-12-28 3774浏览量

  • 云原生应用和容器设计模式的综述和展望

    如本系列文章前文所述,PetSet里的Pod有一个固定的编号和身份,对应固定的存储,一旦某个编号的Pod宕机,同样编号的Pod要被启动起来并挂在到同样的存储设备上,接替以前编号的Pod工作。以较真的角度说,“PetSet”这...

    文章 【云行】 2016-12-13 2434浏览量

  • 《Hadoop与大数据挖掘》——第2章 大数据存储与运算...

    第二名称节点的作用在于为HDFS中的名称节点提供一个Checkpoint,它只是名称节点的一个助手节点,这也是它在社区内被认为是Checkpoint Node的原因。如图2-3所示,只有在NameNode重启时,edits才会合并到fsimage文件中...

    文章 华章计算机 2017-07-03 2125浏览量

  • 支撑阿里 99%数据开发的 DataWorks 在技术架构变革...

    外部关联服务复杂多变,且不可靠不稳定,随时会宕机或者网络中断,甚至是外部服务升级忘了通知我们,从而导致故障频繁。这一点对于数据集成这样一个在几十种引擎,数千个数据库实例中搬运数据的应用来说尤其深有体会...

    文章 中间件小哥 2020-03-18 806浏览量

1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化