• 阿里云网络双十一的定海神针-智能网络平台齐天

    网络当中故障随时可能会发生,一台设备的故障,一根线路的异常,甚至一个端口的问题,都有可能导致网络故障的发生,而一旦网络发生故障,引起的蝴蝶效应则是大面积的上层业务和应用出现问题。很明显,双11期间我们是...
    文章 2019-11-20 3261浏览量
  • 妙用“IP地址冲突”揪出害群之马

    进系统目录,发现c:下有几个异常的文件,该名某个文件,居然不让操作,运行命令 arp –a 发现行arp请求,看来是病毒引起的网络堵塞故障。不能把所有的机器都与网络段掉,当务之急是先找出当前正在作崇的主机然后...
    文章 2017-11-17 1478浏览量
  • zookeeper 应用场景

    集群管理最麻烦的事情就是节点故障管理,zookeeper可以让集群选出一个健康的节点作为master,master节点会知道当前集群的每台服务器的运行状况,一旦某个节点发生故障,master会把这个情况通知给集群其他服务器,...
    文章 2017-11-17 1017浏览量
  • SQLServer灾难恢复

    打开SQLSERVER联机帮助文件,希望从中得到帮助,但是都没有符合我遇到的这个状况,因为我们的日志备份是晚上进行的,到发生故障时为止,没有经过一次备份。现在已经是21:30分,找到SQL的QQ群,向兄弟们求助,得到的...
    文章 2017-11-15 1185浏览量
  • 双11幕后超级英雄:新一代运维的价值

    智能时代的运维不是要让运维人员失业,而是对运维效率的提高有着极大的诉求,比如如何在错综复杂的环境中快速定位问题、root cause、甚至是故障预测,避免发生故障,保障应用稳定性。智能运维要借助数据(运维数据)和...
    文章 2017-11-15 4749浏览量
  • 揭开弹性数据中心的神秘面纱

    这很奇怪,然而如果每年发生一次的故障,这个对于TierI-Tier IV的任何级别的数据中心来说都是灾难。不管怎样,人们不要总是关注这个问题,而要考虑组合问题。这尤其影响到许多非常短暂的失败。最简单的说明方法,...
    文章 2017-11-01 1018浏览量
  • Oracle Data Recovery Advisor(DRA)数据恢复顾问

    换句话说,一个非归档、无备份、无冗余配置的数据库,有致命错误发生的时候,DRA也是无能为力的。 这也就是说,备份还是要做。我们首先在实验前,进行一个完整备份。选择Oracle 11g进行实验,开启归档...
    文章 2017-07-24 2309浏览量
  • HP compaq dx2708故障

    故障排除:问朋友发生故障前对机器进行了哪些操作?朋友说拆机前一直都用的很好,没有安装过新软件。没有蛛丝马迹,只有从上面的四个可能的故障原因里排 查。重启后,进入安全模式,运行msconfig命令,把启动项里...
    文章 2017-11-13 1490浏览量
  • 年轻人不讲武德,偷袭阿里的机房

    总会有各种原因和各种理由让一台服务器发生故障的,可能是过载了,可能是老鼠咬线了,可能是冷凝液泄露了,甚至可能是被知乎用户派人炸了。知乎上有人问过一个问题,如果阿里云数据中心崩了或者被人炸了,是不是淘宝...
    文章 2020-11-18 6722浏览量
  • 666IDC高防服务器 全年24小时30秒售后回复 有问题找我

    想要获知服务器宕机怎么办?可以通过服务器宕机实时检测:1)发现宕机2)提前告警。3)告知宕机的详细原因,如硬件故障,内核bug,网络异常等等。4)自动报修生成工单。我们知道,进行全网物理机宕机准确探测与实时发现,...
    文章 2020-05-14 521浏览量
  • 如何防止HA集群的脑裂

    因此,为了不让故障节点捣乱,故障节点应该在失联后自己释放资源,为了应对释放资源的进程本身出现故障,可以加上软fence。在这个前提下,可以认为没有可靠的物理fence设备也是安全的。 4.主从切换后数据能否保证不...
    文章 2015-11-18 3423浏览量
  • Linux之HA高可用集群的基础概念总结

    每个RS上都运行有服务资源,当有个RS节点时,一旦某个节点发生故障要立马进行资源转移到其他节点,让其他节点处理未处理完的请求,并且要防止Director将前端请求继续此节点,但有如此的节点存在,故障发生时到底...
    文章 2017-05-02 1447浏览量
  • 流处理技术谬见大消除

    这就是Flink在发生故障时仍然能保证一次性状态的原因:Flink定时记录(快照)输入流的读取位置和每个操作数的相关状态。如果发生故障,Flink会回滚到之前的状态,并重新开始计算。所以说,尽管记录被重新处理,但从...
    文章 2017-06-05 1179浏览量
  • 以Flink为例,消除流处理常见的六大谬见

    这就是Flink在发生故障时仍然能保证一次性状态的原因:Flink定时记录(快照)输入流的读取位置和每个操作数的相关状态。如果发生故障,Flink会回滚到之前的状态,并重新开始计算。所以说,尽管记录被重新处理,但从...
    文章 2017-08-01 1869浏览量
  • 以Flink为例,消除流处理常见的六大谬见

    这就是Flink在发生故障时仍然能保证一次性状态的原因:Flink定时记录(快照)输入流的读取位置和每个操作数的相关状态。如果发生故障,Flink会回滚到之前的状态,并重新开始计算。所以说,尽管记录被重新处理,但从...
    文章 2017-08-03 734浏览量
  • WSFC基础知识奠基

    1.确保个节点可以访问到相同内容的共享存储,不论是SAS,ISCSI,FCOE,JBOD,RBOD,或是SDS出来的都可以,确保同一个共享存储可以被所有群集内节点访问,以便发生故障转移时其它节点可以从共享存储上线资源 ...
    文章 2017-11-12 1330浏览量
  • AI赋能DevOps:数据驱动的全栈工程师实践

    即使每分钟产生上亿条日志,可能里面不到100种类新的事件,只是说每一种类新的事件重复发生了很次,所以造成整体数据的膨胀。通过这种分析数据之间的关联性,把数据里面的干扰信息过滤掉,提取出里面一些公共的...
    文章 2019-11-04 9486浏览量
  • 车联网上云最佳实践(二)

    我们公司应用刚上线的时候系统各方面的设计比较简单,横向扩展能力不强,随着业务爆发式增长,因为我们很资源无法及时扩展,导致系统故障,用户体验降低。例如文件存储,刚开始的时候我们是自建的NFS文件存储,...
    文章 2018-08-22 2668浏览量
  • 如何设计稳定性横跨全球的 Cron 服务

    如果发生故障,很有可能这个任务就被再次执行,因为没有节点知道这个任务已经被执行过了。Cron 任务的完成状态通过 Paxos 通知给其它节点,从而保持同步,这里要注意一点,这里的“完成”状态并不是表示任务是成功...
    文章 2017-06-05 1104浏览量
  • 大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark...

    必须有个东西能够使得发生故障的时候自动切换啊!这东西就是Zookeeper。所以有了下面这张图: 由于这些组件的HA原理类似,我们只以最难的HDFS的HA高可用架构原理为例讲解。而其他组件,不讲解原理,只上配置文件。...
    文章 2018-03-29 19639浏览量
  • Nginx 挂了怎么办?怎么实现高可用?

    当主 Master节点发生故障时&xff0c;就无法发送心跳消息&xff0c;备节点也就因此无法继续检测到来自主 Master节点的心跳了&xff0c;于是调用自身的接管程序&xff0c;接管主Master节点的 IP资源及服务。而当主 Master节点恢复...
    文章 2021-12-20 7浏览量
  • 用SpringCloud进行微服务架构演进

    当熔断发生的时候需要迅速的响应来解决问题,避免故障进一步扩散,那么对熔断的监控就变得非常重要。熔断的监控现在有两款工具:Hystrix-dashboard和Turbine。Hystrix-dashboard是一款针对Hystrix进行实时监控的工具...
    文章 2019-03-25 3443浏览量
  • 车联网上云最佳实践(一)

    总之在我们使用kafka过程中遇到太kafka的bug而导致的故障了。而我们中小企业技术能力有限没有能力第一时间修复这种开源软件的bug,处于非常被动和无奈的局面。流计算集群:流计算采用的阿里巴巴开源的Jstorm,利用...
    文章 2018-08-31 2970浏览量
  • ARP病毒查找与防范

    或者突然掉线时,我们可以用arp-a命令来检查ARP表:(点击“开始”按钮-选择“运行”-输入“cmd”点击"确定"按钮,在窗口中输入“arp-a”命令)如果发现网关的MAC地址发生了改变,或者发现有很IP指向同一个物理...
    文章 2017-11-14 1088浏览量
  • 使用手机QQ前要了解的必备常识

    网络故障、移动网关调整会导致无法登录手机QQ。建议您先在手机腾讯网免费wap聊天 手机QQ-音乐版,可以正常登录QQ,但是无法浏览资讯类和音乐排行榜内容,是什么原因?现象出现在水货手机上,因为这些手机没有...
    文章 2017-11-15 1376浏览量
  • 章文嵩博士和他背后的负载均衡帝国

    3、请求方和目标机器之间总是要过一次LB,这在网络链路上是了1,我们都知道多一可不光是rt的损耗那么简单,链路上从1到2,链路和连接出故障的概率也翻了一倍,这要怎么解?4、机房,区域的异地活与容...
    文章 2016-05-30 9540浏览量
  • 章文嵩(正明)博士和他背后的负载均衡(LOAD ...

    请求方和目标机器之间总是要过一次LB,这在网络链路上是了1,我们都知道多一可不光是rt的损耗那么简单,链路上从1到2,链路和连接出故障的概率也翻了一倍,这要怎么解?机房,区域的异地活与容灾,...
    文章 2016-05-26 16502浏览量
  • 利用写Redis实现分布式锁原理与实现分析

    表面来看,这个方案似乎很管用,但是这里存在一个问题:在我们的系统架构里存在一个单点故障,如果Redis的master节点宕机了怎么办呢?有人可能会说:加一个slave节点!在master宕机时用slave就行了!但是其实这个...
    文章 2016-10-01 844浏览量
  • Spring Cloud 微服务的那点事

    在微服务架构中通常会有个服务层调用,基础服务的故障可能会导致级联故障,进而造成整个系统不可用的情况,这种现象被称为服务雪崩效应。服务雪崩效应是一种因“服务提供者”的不可用导致“服务消费者”的不可用,...
    文章 2018-09-25 1036浏览量
  • zookeeper集群搭建

    如果我们每台机器里都备有一份域名到IP地址的映射,这个倒是能解决一部分问题,但是如果域名对应的IP发生变化了又该怎么办呢?于是我们有了DNS这个东西。我们只需要访问一个大家熟知的(known)的点,它就会告诉你这个...
    文章 2017-11-26 663浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化