• namenode磁盘满引发recover edits文件报错

    又发现集群Secondary namenode 服务也恰恰坏掉,导致所有的操作log持续写入edits.new 文件,集群宕机的时候文件大小已经达到了丧心病狂的70G+.重启集群报错 加载edits文件失败。分析加载文件报错原因是磁盘不足...
    文章 2015-01-31 849浏览量
  • ...head><meta http-equiv="Cont

    又发现集群Secondary namenode 服务也恰恰坏掉,导致所有的操作log持续写入edits.new 文件,集群宕机的时候文件大小已经达到了丧心病狂的70G+.重启集群报错 加载edits文件失败。分析加载文件报错原因是磁盘不足...
    文章 1970-01-01 578浏览量
  • 网络安全险 这块保险业的金矿有点大

    有最长宕机时间之称的某知名旅游网站事件,对于宕机的原因,不管官方是做出了“不明攻击”还是“员工操作失误”两次相异的解释,其真实原因为何我们暂不细究,而12小时的宕机实际已经造成了该企业超过千万的直接损失...
    文章 2017-09-30 4367浏览量
  • SR采用PubSubHubbub协议实时接收GReaderSharedItems...

    某些时候需要将一个 Shared Items 退订(分享文章质量太差等原因),不让 Hub 继续发送更新过来,那么就需要一个特定的用户状态。退订的流程和订阅一样,只是 hub.mode 值为 'unsubscribe'。所以 User 要有一个订阅...
    文章 2016-04-26 1115浏览量
  • 使用云监控和函数计算,秒级恢复故障

    将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管理,让用户可以方便的了解这些事件,这些事件通常都是对用户有比较严重影响的事件,比如:ecs宕机,hang机,rds主备切换,slb证书过期,slb丢包。...
    文章 2018-08-06 10621浏览量
  • 自己动手写SQL执行引擎

    笔者这里只是完成了最简单的B+树结构,没有给其添加并发修改的锁机制,也没有在B+树做操作的时候记录log来保证B+树在宕机等灾难性情况下的一致性,所以就算完成了这么多的工作量,距离一个高并发高可用的bptree还有...
    文章 2020-05-24 507浏览量
  • 使用云监控和函数计算,秒级恢复故障

    将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管理,让用户可以方便的了解这些事件,这些事件通常都是对用户有比较严重影响的事件,比如:ecs宕机,hang机,rds主备切换,slb证书过期,slb丢包。...
    文章 2018-08-07 1640浏览量
  • RocketMQ 客户端最佳实践

    FLUSH_SLAVE_TIMEOUT,消息发送成功,但是服务器同步到Slave时超时,消息已经进入服务器队列,只有此时服务器宕机,消息才会丢失。SLAVE_NOT_AVAILABLE,消息发送成功,但是此时slave不可用,消息已经进入服务器队列...
    文章 2016-12-09 10635浏览量
  • IT专业人士不招人喜欢的10大原因

    办公系统或者秘书的电脑宕机时,肯定需要尽快能修好。但有时候IT工程师就像酷热夏日里的空调维修员一样,手上的单子太多,客户必须排队。但是,对于关键系统来说,哪怕几分钟的宕机时间也是不能忍受的。3:尝试不...
    文章 2012-09-28 1280浏览量
  • 基于 Seata Saga 设计更有弹性的金融应用

    在更上层的业务系统因为流程多流程,开发 TCC 成本比较高,大都会权衡采用 Saga 模式来到达业务最终一致性,由于历史的原因不同的 BU 有自己的一套“补偿”事务的方案,基本上是两种: 一种是当一个服务在失败时...
    文章 2019-11-07 664浏览量
  • 如何选择分布式事务解决方案?

    TCC 事务在执行过程中的任意环节,均可能发生宕机、重启、网络中断异常情况,此时事务处于非原子状态和非最终一致状态,此时就需要根据主事务记录和分支事务记录的日志,去完成剩余分支事务的提交或者回滚,使整个...
    文章 2020-05-28 1975浏览量
  • 《云安全原理与实践》——2.1 云计算面临的技术风险

    当然,为了做到这一点,攻击者必须获得受感染网络上另一台虚拟机的访问权。2.1.4 网络安全风险泛在接入作为云计算服务的五大特征之一,云环境下的网络安全问题也就自然而然地凸显出来。在网络风险方面,云计算主要...
    文章 2017-09-04 2739浏览量
  • 双11黑科技,阿里百万级服务器自动化运维系统...

    针对机器本身的问题,与监控系统中的数据打通,任务失败后会触发环境检查,包括宕机、磁盘空间、负载,如果有相应问题API会直接返回机器有问题,并且把机器的负责人也一并返回,这样用户一看结果就知道什么原因该...
    文章 2017-12-01 12088浏览量
  • Go程序设计语言3.5 字符串

    试图访问许可范围以外的字节会触发宕机异常: 字符串的第i个字节不一定就是第i个字符,因为非ASCII字符的UTF-8点需要两个字节或多个字节。稍后将讨论如何使用字符。子串生成操作s[i:j]产生一个新字符串,内容取自...
    文章 2017-05-02 2114浏览量
  • MySQL 入门(1):查询和更新的内部实现

    指令的顺序执行、数组的连续存放是产生顺序局部性的原因。简单的来解释就是如果一行数据被读取了或者一条指令被执行了,那么很大概率接下来CPU会继续读取或执行这个地址或者这个地址后面的数据和指令。在MySQL中也...
    文章 2020-04-30 281浏览量
  • 异地多活设计辣么难?其实是你想多了!

    Redis又是另外一个问题,Redis 3.0之前没有Cluster功能,只有主从复制功能,而为了设计上的简单,Redis主从复制有一个比较大的隐患:从机宕机或者和主机断开连接都需要重新连接主机,重新连接主机都会触发全量的主从...
    文章 2016-07-15 32748浏览量
  • Linux必会原理之输入网址到看到页面内容原理

    503 services unavailable 服务器不可用,可能是服务器超载或者宕机,或者反向代理后面没有提供服务的节点 504 Gateway timeout 代理向后请求,后端在一定时间内没有给反馈,造成的超时。下面看看响应头部,...
    文章 2017-11-28 1257浏览量
  • 蚂蚁智能监控

    容灾架构 前文简要提及了架构去单点问题的解决思路,这足以覆盖日常可能发生的节点宕机、网络抖动小规模故障场景,但是当真正的毁灭性灾难来临时,还需要更高层面的容灾方案来应对。目前基于不同租户保障等级的...
    文章 2021-09-07 17浏览量
  • 最强CP!阿里云联手支付宝小程序如何助力双11?

    正是在阿里云的保驾护航下,即使访问量是平时的5到6倍,小程序也鲜少出现卡顿或者宕机的现象,“依靠阿里云,我们整个天猫双11活动平稳落地。一位小程序商家说到。要问支付宝小程序商家本次“天猫双11”最大的感触是...
    文章 2019-11-15 2533浏览量
  • 轻松搞定RocketMQ入门

    FLUSH_SLAVE_TIMEOUT:消息发送成功,但是服务器同步到 Slave 时超时,消息已经进入服务器队列,只有此时服务器宕机,消息才会丢失 SLAVE_NOT_AVAILABLE:消息发送成功,但是此时 slave 不可用,消息已经进入服务器...
    文章 2018-08-10 28788浏览量
  • 大促场景系统稳定性保障实践经验总结

    江煵在分享中提到,今年我们在新闻里听到了很多比较大的宕机事件,宕机的原因其实都很典型,删库跑路、被攻击、没有做好容量规划或者弹性能力不足、系统更改。宕机后果还是比较严重,比如某SaaS服务商直接经济损失...
    文章 2020-11-12 6046浏览量
  • 浅谈分布式一致性:Raft 与 SOFAJRaft

    连续确定多个提案,确保集群中各个系统节点状态完全一致自动选主,保证在只有少数派宕机的情况下持续可用日志强同步,宕机后零数据丢失三 SOFAJRaft一个纯 Java 的 raft 算法实现库,使用 Java 重写了所有功能,并有...
    文章 2021-06-01 5781浏览量
  • Kubernetes 稳定性保障手册-日志专题

    通用关键告警 与业务耦合度小,如机器级别的关键告警(宕机、内存压力大、load 过高等)、托管服务的关键告警(master 组件 panic/OOM、master 组件内存压力大),这部分告警配置可以作为基础服务,作为集群交付的一...
    文章 2021-03-02 933浏览量
  • HDFS简单入门

    经过协调校验,无论是传输错误,I/O错误,还是个别服务器宕机,整个系统里的文件是完整的 分布后的文件系统有个无法回避的问题,因为文件不在一个磁盘导致读取访问操作的延时,这个是HDFS现在遇到的主要问题。现阶段...
    文章 2016-04-21 4115浏览量
  • 思考,基于高密度闪存的存储系统未来到底是一个什么...

    (全闪存阵列和分布式存储最大的区别在于是否使用了双端口硬盘,分布式存储中如果一个节点宕机,重构时间非常,整个系统的性能会出现大幅下滑,而全闪存阵列使用双端口硬盘,控制器故障后,仍有链路可以访问硬盘,...
    文章 2017-08-25 1465浏览量
  • 阿里巴巴DevOps实践指南(二十二)|发布策略

    因为部署间隔时间,将会导致每次的部署包含更多的代码变更,结果就是出现更多缺陷和宕机的风险。这种情况下,人们为了降低发布风险,会倾向于增加更多的评审,事实上这除了大大增加部署时间外,对降低发布风险的...
    文章 2021-07-06 265浏览量
  • 十个应对数据中心宕机的措施与方法

    例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件。据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上。尽管在设计和...
    文章 2017-10-02 1175浏览量
  • 美东部网站宕机后续:1100万路由器和摄像头仍在公网...

    10月22日凌晨,美国域名服务器管理服务供应商Dyn称其公司遭遇了DDoS(分布式拒绝服务)攻击,包括Twitter、Tumblr、Netflix、亚马逊、Shopify、Reddit、Airbnb、PayPal和Yelp诸多网站无一幸免。10月24日,安全博客...
    文章 2017-08-09 994浏览量
  • IT Helpdesk的运作方式

    对于需要花较时间处理的问题,我们一般会跟用户说这个case需要花多点时间处理,麻烦用户稍,处理完后我们会电话告之用户,然后把电话挂掉继续处理问题,以免用户那边拿着电话等待。对于比较复杂,或暂时解决不了...
    文章 2017-11-15 1296浏览量
  • 浅谈HBase的数据分布

    在上面的例子中,只有两个定的列,但在实际业务中,列可能是变的,有各种各样的数据类型,各种丰富的查询模式。此时,构造一个正确、高效的scan是有难度的。那为什么会有这些问题呢?有没有系统性的解决方案呢?...
    文章 2018-07-29 5845浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化