• 阿里云网络双十一的定海神针-智能网络平台齐天

    阿里云飞天操作系统是目前中国唯一自主研发的云计算操作系统,这次双11支撑了阿里巴巴100%核心系统的运行。作为阿里云飞天操作系统的网络子系统-洛神,在本次双11也不负众望,承担了全球全球最大规模的流量洪峰,在...
    文章 2019-11-20 3030浏览量
  • 对系统故障处理的思考

    其实很简单,就是想说明,任何故障都是有原因的,都是有表面现象的,说没有任何现象那是扯蛋,而且这一类的信息系统也就那么几类故障,绝对不会发生像动车追尾的事故,所以在发生故障时,观察现象是很重要的,对于...
    文章 2017-11-14 934浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统和故障的数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4694浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    因此,当我们在SDN中融合了分析的力量,特别是在进行中而不是临时搭建的基础上融合了分析后会发生什么?这就是我们未来的网络——因为有着持续的SDN分析和操作的反馈,即网络实现自我监控、自我优化、自动调整并保持...
    文章 2017-07-03 917浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    因此,当我们在SDN中融合了分析的力量,特别是在进行中而不是临时搭建的基础上融合了分析后会发生什么?这就是我们未来的网络——因为有着持续的SDN分析和操作的反馈,即网络实现自我监控、自我优化、自动调整并保持...
    文章 2017-08-01 742浏览量
  • 分布式事务及其一致性协议

    (3)分区容错性:分布式系统在遇到任何网络分区故障时,都需要能够保证一致性和可用性,除非整个网络都发生故障。2.BASE理论 BASE理论指的是Basically Avaliable(基本可用)、Soft state(软状态)和Eventually ...
    文章 1970-01-01 590浏览量
  • 十个应对数据中心宕机的措施与方法

    虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的...
    文章 2017-10-02 1191浏览量
  • 2019年美团、滴滴、蘑菇街Java岗9次面试总结

    spark的通信模型,集群发生故障怎么办。spark的执行流程。java中有哪些锁。synchronized为什么是重量级锁。如果工作中提出不合理的需求你会怎么办。怎么看待加班。实习时间。过了几天面试官说面试通过,过几天老板...
    文章 2019-07-24 1668浏览量
  • 《Kafka Stream》调研:一种轻量级流计算模式

    计算场景中,是否会有两个极端:复杂内存操作+迭代计算,轻量级数据加工与ETL。这两个比例分别占据多少?在我们常用的ETL场景里,大部分其实是轻量级Filter,LookUP,Write Storage等操作,有时候我们为了对数据做...
    文章 2016-07-27 23761浏览量
  • 揭开弹性数据中心的神秘面纱

    这很奇怪,然而如果每年发生一次的故障,这个对于TierI-Tier IV的任何级别的数据中心来说都是灾难。不管怎样,人们不要总是关注这个问题,而要考虑组合问题。这尤其影响到许多非常短暂的失败。最简单的说明方法,...
    文章 2017-11-01 984浏览量
  • 《银行的一天》演示日志处理保序、不丢、不重

    这篇文章主要讨论如何在实时计算场景中,如何能做到日志处理保序、不丢失、不重复,并且在上下游业务系统不可靠(存在故障),业务流量剧烈波动情况下,如何保持这三点。为了能够方便理解,这里会使用《银行的一天》...
    文章 2016-08-24 10797浏览量
  • 舞动的桥 阿里云首个百万IOPS云盘的背后

    但百密一疏,我们还是在这上面栽过跟头,进程主动检测到binary所在的系统盘故障,老司机当然知道此时不能再在该盘上发起任何IO 操作,日志写入到内存中,调用exit,安静的退出,不带走一片云彩即可。但进程居然无法...
    文章 2018-02-01 3872浏览量
  • 用不同版本的安装盘修复系统故障

    重要提示:在用安装盘以救援引导系统时,请使用redhat 9以后的版本(不包括9),因为用redhat 9 救援很可能对硬盘发生写入操作,导致更麻烦得后果。本文转自sery51CTO博客,原文链接:...
    文章 2017-11-16 792浏览量
  • 计算-从基础到应用架构系列-云计算的概念,互联网...

    对这些存储服务器进行统一的管理,实现异地的分布式备份服务器机制,当我们的某一个服务器发生故障时,其他服务器可以接替故障服务器的任务继续进行服务,这是一种形式,还有就是通过分布式管理器,完成所有的存储...
    文章 1970-01-01 1318浏览量
  • 计算-从基础到应用架构系列-云计算的概念

    服务器,有一个分布式的资源管理器,对这些存储服务器进行统一的管理,实现异地的分布式备份服务器机制,当我们的某一个服务器发生故障时,其 他服务器可以接替故障服务器的任务继续进行服务,这是一种形式,还有...
    文章 2017-11-12 1427浏览量
  • 计算-从基础到应用架构系列-云计算的概念

    服务器,有一个分布式的资源管理器,对这些存储服务器进行统一的管理,实现异地的分布式备份服务器机制,当我们的某一个服务器发生故障时,其 他服务器可以接替故障服务器的任务继续进行服务,这是一种形式,还有...
    文章 2017-12-19 1531浏览量
  • 阿里云服务器购买前应该注意哪些事项?

    不会操作怎么办?售后好不好呢?阿里云贴心售前团队,懂客户的每一个担心!我们汇总了历史最热咨询的售前问题,帮您答疑解惑!不用担心,两分钟保准让您读懂阿里云计算;实在不行,还有5天免费试用和5天无理由退款给...
    文章 2019-12-18 3898浏览量
  • 阿里云技术战略总监陈绪:5G时代哪些核心技术值得关注...

    其中包括传统意义降低成本,永不停机的计算服务降低成本,公共云降低成本,还阐述了5G时代会发生什么和5G值得关注的核心技术,最后为大家介绍了阿里云构建云边端三体协同的开放生态平台。传统意义降低成本 阿里巴巴...
    文章 2019-07-29 2121浏览量
  • 车联网上云最佳实践(二)

    由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many connections错误。...
    文章 2018-08-22 2591浏览量
  • 一文读懂大数据计算框架与平台

    而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,并且要考虑计算机或网络发生故障时的数据安全,情况要复杂得多。举一个简单的例子,...
    文章 2017-05-02 2840浏览量
  • 【独家】一文读懂大数据计算框架与平台

    而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,并且要考虑计算机或网络发生故障时的数据安全,情况要复杂得多。举一个简单的例子,...
    文章 2017-05-01 1587浏览量
  • 详解:从Greenplum、Hadoop到现在的阿里大数据技术

    最终我们使用自主研发的飞天操作系统将五千台机器整合到一个大平台,用飞天操作系统能够分布式的部署到异地的多个机房的能力实现了大数据计算和存储能力。飞天操作系统帮我们真正实现了梦想:把三个云计算方向整合...
    文章 2016-05-26 9932浏览量
  • 【双11背后的技术】万亿交易量级下的秒级监控

    由Map、Reduce组成计算平台,负责所有采集内容的加工计算,具备故障自动恢复能力及弹性伸缩能力。2.3.2.1 定位 计算平台一直以来都是发展最快、改造最多的领域,因为它是很多需求的直接生产者,也是性能压力的直接...
    文章 2017-01-12 5498浏览量
  • 秘诀!支付宝支撑双十一4200万次/秒的数据库请求峰值...

    在节点角色上,有几个节点(root service)负责管理集群拓扑结构等全局信息,相对特殊一点,但每个节点都具备承担这个角色的能力,如果当前承担该角色的节点发生故障,集群会自动选举出新的节点承担这个角色。...
    文章 2018-05-10 2658浏览量
  • 车联网上云最佳实践(一)

    消息队列集群:由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many ...
    文章 2018-08-31 2929浏览量
  • 开发者社区精选直播合集(三)|企业级安全架构

    5.随时发生的系统故障&xff0c;防不胜防的勒索病毒&xff0c;人为或者误操作带来的运维事故&xff0c;还有不可预知的自然灾害&xff0c;数据的丢失损坏都会对业务造成难以估量的损失&xff0c;通过云上与本地数据统一备份做到...
    文章 2021-07-20 422浏览量
  • Flink+Iceberg 全场景实时数仓的建设实践

    首先,如果有一个 write 操作,在写 snapsho-1 的时候,snapshot-1 是虚线框,也就是说此时还没有发生 commit 操作。这时候对 snapshot-1 的读其实是不可读的,因为用户的读只能读到已经 commit 之后的 snapshot。...
    文章 2021-01-28 2215浏览量
  • Apache Flink 在快手的过去、现在和未来

    如果出现了一个节点故障,比如 node3 发生故障了。Flink 引擎会重新从 YARN 申请资源,完成 TaskManager 初始化,并重新部署作业。我们对一个业务作业做了一个分析,发现宕机故障后到作业恢复,共需要 90s 的时间。...
    文章 2021-02-26 1060浏览量
  • 陷入人肉SQL优化的恶性循环怎么办?是时候跟它们说...

    3.如何全面地评估优化效果、影响面(包括副作用,如对相关SQL,写操作的影响等),做上线前的安全评估?4.对于复杂的部署(如大规模的分库分表场景),如何选择灰度策略、变更窗口、安全稳妥地推进线上变更?5.如何...
    文章 2020-04-16 553浏览量
  • 字节跳动 Flink 单点恢复功能实践

    作业不发生全局重启,只有故障 Task 发生 Failover 非故障 Task 不受影响,正常为线上提供服务 解决思路 当初遇到这些问题的时候,我们提出的想法是说能不能在机器故障下线的时候,只让在这台机器上的 Tasks 进行 ...
    文章 2020-09-29 8480浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化