• 关于

    执行实时系统一般会出现什么故障

    的搜索结果
  • 谷歌架构的转变:从单数据中心到故障转移系统,再到多宿主架构

    运行单数据中心的系统很有难度,那么设想一下切换到双数据中心吧,假设你需要对多个位于不同地理位置的数据中心提供支持。谷歌有一篇发人深思的优秀论文,其中对这一过程有所描述——“大规模高可用性:打造谷歌的广告数据基础设施”。 文中的主要观点是:在将单个数据中心切换到多个数据中心时,典型的故障转移架构在实...

    文章 青衫无名 2017-07-03 850浏览量

  • 如何设计高可用系统之故障隔离

    作者:大谷 什么是故障 简单来说,当功能或性能不符合预期,就是故障。 故障有两个比较重要的衡量指标: RPO(Recovery Point Objective):主要指的是业务系统能容忍的最大数据丢失量,针对的是数据丢失。对于资金业务来说,一般 RPO 不能大于 0 的。 RTO(Recovery...

    文章 初商 2019-08-06 802浏览量

  • IBM和SAP合力打造美国的物联网时代

    OFweek物联网讯 当司机出现操作失误时汽车会自动报警;公文包会提醒主人忘带了什么东西;衣服会“告诉”洗衣机对颜色和水温的要求等等,这是国际电信联盟的一份报告曾描绘出的“物联网”时代的图景。那到底什么是物联网呢,简而言之,物联网是通过在物品上嵌入电子标签、条形码等能够存储物体信息的标识,通过无线...

    文章 寒凝雪 2017-07-03 824浏览量

  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    作者:闲鱼技术-吴白 引言 服务端问题排查(服务稳定性/基础设施异常/业务数据不符合预期等)对于开发而言是家常便饭,问题并不可怕,但是每天都要花大量时间去处理问题会很可怕;另一方面故障的快速解决至关重要。那么目前问题排查最大的障碍是什么呢?我们认为有几个原因导致:1) 大量的告警信息。2) 链路的...

    文章 闲鱼技术 2019-07-24 11570浏览量

  • Monitoring Apache Spark 面临新挑战

    大数据处理已经进入了新时代,数据的复杂度越来越高,人们对数据实时处理的要求也越来越高。新时代带来了很多的新改变,但是最大程度创造数据价值是大数据时代不变的宗旨。随着实时数据处理的用例越来越多,实时数据处理框架也丰富起来,例如, Apache Spark、Storm、 Heron、 Flink、Ap...

    文章 沉默术士 2017-07-03 696浏览量

  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    作者|吴白出品|阿里巴巴新零售淘系技术部 服务端问题排查对开发而言是家常便饭,问题并不可怕但要花大量时间去处理;另一方面故障的快速解决至关重要。 目前问题排查最大的障碍是什么呢?我们认为有以下几个原因: 大量的告警信息。 链路的复杂性。 排查过程繁复。 依赖经验。 实际工作中的排查思路并非无迹...

    文章 淘系技术 2019-08-29 2521浏览量

  • Monitoring Apache Spark 面临新挑战

    文章讲的是Monitoring Apache Spark 面临新挑战,大数据处理已经进入了新时代,数据的复杂度越来越高,人们对数据实时处理的要求也越来越高。新时代带来了很多的新改变,但是最大程度创造数据价值是大数据时代不变的宗旨。随着实时数据处理的用例越来越多,实时数据处理框架也丰富起来,例如, ...

    文章 青衫无名 2017-09-01 1114浏览量

  • 《Storm企业级应用:实战、运维和调优》——1.1 什么是实时流计算

    本节书摘来自华章计算机《Storm企业级应用:实战、运维和调优》一书中的第1章,第1.1节,作者:马延辉 陈书美 雷葆华著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.1 什么是实时流计算 所谓实时流计算,就是近几年由于数据得到广泛应用之后,在数据持久性建模不满足现状的情况下,急...

    文章 华章计算机 2017-07-03 2178浏览量

  • 如何用消息系统避免分布式事务?

    前阵子从支付宝转账1万块钱到余额宝,这是日常生活的一件普通小事,但作为互联网研发人员的职业病,我就思考支付宝扣除1万之后,如果系统挂掉怎么办,这时余额宝账户并没有增加1万,数据就会出现不一致状况了。 上述场景在各个类型的系统中都能找到相似影子,比如在电商系统中,当有用户下单后,除了在订单表插入一条...

    文章 亮伟 2016-07-13 5224浏览量

  • 连载:阿里巴巴大数据实践—实时技术

    前言:-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入) -阿里云数据中台官网 https://dp.alibaba.com/index 来源:数智化转型俱乐部 数据价值是具有时效性的,在一条数据产生的时候,如果不能及时处...

    文章 数据中台君 2020-08-19 1270浏览量

  • 《架构师》反思:系统可靠性

    最近系统学习了一个系统可靠性及其相关知识,今天在这总结一下。 首先,什么是系统的可靠性呢?系统的可靠性是指在规定的时间内及规定的环境下完成规定功能的能力,也就是系统的无故障运行概率。 我会从以下几个方面来归纳主要内容: 1. 故障模型 2. 可靠性模型 3. 可靠性指标 4. 可靠性设计 故障模型...

    文章 胡庆访 2016-05-05 4604浏览量

  • 走近华佗,解析自动化故障处理系统背后的秘密

    集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统。一方面完成飞天其他组件不擅长的OS和硬件的故障自动监测和处理,另一方面推动飞天去及时规避硬件和OS引起的故障,使得故障能够闭环运转,大幅度减少故障处理成本和造成的影响。飞天5K项目期间的规模效应凸显出自动化处理故障的必要性,大...

    文章 yq传送门 2016-12-18 4455浏览量

  • 如何用消息系统避免分布式事务?

     前阵子从支付宝转账1万块钱到余额宝,这是日常生活的一件普通小事,但作为互联网研发人员的职业病,我就思考支付宝扣除1万之后,如果系统挂掉怎么办,这时余额宝账户并没有增加1万,数据就会出现不一致状况了。   上述场景在各个类型的系统中都能找到相似影子,比如在电商系统中,当有用户下单后,除了在订单表插...

    文章 力君 2015-12-04 23045浏览量

  • 一种基于Lucene的实时搜索服务

    因为本文篇幅有限,在这里我只会着重介绍:实时性、高可用性在我们产品中的一些技术实践。实时解决方案在介绍我们产品方案之前,首先介绍下业内常见的实时解决方案,见图1-1实时架构图:图1-1该方案一般是由: 内存索引(Ram-IndexA)负责数据更新。 内存索引(Ram-IndexA)...

    文章 柳明-洪震 2018-01-26 5173浏览量

  • 有货:六层混合云架构打造中国最潮生态圈

    直播视频: (点击图片查看视频) 幻灯片下载地址:https://oss.aliyuncs.com/yqfiles/7ded2aa3052bb9226fd2af0a08873750.pdf 3月18日云栖社区在线实时分享顺利结束,本次由有货CTO李建分享了有货为了应对流量的爆发式增长,对...

    文章 场景研读 2016-03-31 13789浏览量

  • 趣头条基于 Flink+ClickHouse 构建实时数据分析平台

    作者:王金海@趣头条 摘要:本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景,内容分为以下四部分: 一、业务场景与现状分析 二、Flink-to-Hive 小时级场景 三、Flink-to-Click...

    文章 阿里云实时计算Flink 2020-04-02 2412浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸多有代表...

    文章 技术小能手 2017-06-19 3370浏览量

  • 阿里:千亿交易背后的0故障发布

    前言 近几年,我们在发布效率和稳定性方面做了不少工作,其中效率简单的说就是发布耗时,一个是发布的速度,比如一个应用是1个小时发布完成,还是5分钟发布完成?另一个是人员介入,开发在发布过程中是否需要介入处理各种发布过程中出现的问题?这两者都做好了,才能说是发布效率提升了。稳定性最基础的是系统的稳定性...

    文章 阿里云头条 2018-04-20 4980浏览量

  • 无人值守时代,运维如何保障发布质量?

    导读:阿里巴巴千亿交易背后,如何尽量避免发布故障?在面对实际运维过程中遇到的问题该如何解决?近日,在GOPS大会上,阿里巴巴运维技术专家少荃,给我们带来了解决方案和思路。 作者:陆叶平(花名少荃),阿里巴巴研发效能事业部技术专家。目前从事运维中台(阿里内部叫诺曼底)建设方面的工作,是集...

    文章 云效平台 2018-04-18 3290浏览量

  • 有赞实时任务优化:Flink Checkpoint 异常解析与应用实践

    作者:沈磊(有赞大数据) 有赞实时任务主要以 Flink 为主,为了保证实时任务的容错恢复以及停止重启时的状态恢复,几乎所有的实时任务都会开启 Checkpoint 或者触发 Savepoint 进行状态保存。由于 Savepoint 底层原理的实现和 Checkpoint 几乎一致,本文结合 F...

    文章 阿里云实时计算Flink 2020-03-11 886浏览量

  • 有赞实时任务优化:Flink Checkpoint 异常解析与应用实践

    作者:沈磊(有赞大数据) 有赞实时任务主要以 Flink 为主,为了保证实时任务的容错恢复以及停止重启时的状态恢复,几乎所有的实时任务都会开启 Checkpoint 或者触发 Savepoint 进行状态保存。由于 Savepoint 底层原理的实现和 Checkpoint 几乎一致,本文结合 F...

    文章 阿里云实时计算Flink 2020-03-11 559浏览量

  • 云场景实践研究第12期:有货

    更多云场景实践研究案例,点击这里:【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽 随着整体业务的高速发展、流量的爆发式增长,有货对系统进行了大面积的重构。首先,数据中心从传统的单一IDC演化成为“公有云+IDC”混合模式,同时应用系统也从原来的单体全站应用演变到以微...

    文章 场景研读 2018-02-03 1443浏览量

  • HBase的引出

    行式存储和列式存储 如上图,第一个行式存储是以行为单位存储数据,三个颜色的代表三个不同行数据,而下面的是列式存储,以列为单位存储数据,四个颜色代表四个不同的列,箭头也是用来表示数据是如何存储的 在传统的RDBMS(关系型数据库)中,保存着一条完整的数据,如果查询数据的某列,需要将这行数据查询出...

    文章 期待l 2018-11-30 1209浏览量

  • 面向失败的设计-自动化运维管控

    摘要:自动化运维与管控在业界是一个非常普遍的话题,特别是在互联网圈子里面,近几年随着大数据技术的爆发、系统规模和复杂度的提升以及行业开始对ServiceMesh、FAAS等云原生技术体系的探索,自动化运维与管控在业界及公司内的重要性越发凸显,然而,自动化运维与管控的应用目前主要集中在各大公司的运维...

    文章 KB小秘书 2019-11-08 415浏览量

  • 业务系统对消息中间件的要求(接上一篇《分布式消息中间件中的一些概念》)

      在大型互联网中,主要采用消息中间件来进行业务的解耦和操作的异步化,这也是消息中间件最基础的特点,也是业务系统对消息中间件的最基本需求。   在这个基础之上,本篇来谈一下业务系统从功能、性能等各个方面对消息中间件的需求。   功能 功能需求核心的其实就发送消息和消费消息,细化下去,发送需求会有同...

    文章 蘑菇街隐修 2017-07-01 611浏览量

  • 基于MaxCompute/Dataworks实现数据仓库管理与全链路数据体系

    前言   就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术。大数据其实是个...

    文章 隐林 2019-04-28 1833浏览量

  • 深入解析:由SQL解析失败看开发与DBA的性能之争

    深入解析:由SQL解析失败看开发与DBA的性能之争 李华 云和恩墨高级技术顾问 编者注:在很多生产系统中,程序员经意不经意写下的一条SQL都可能带来性能上的巨大隐患,正确的、不正确的。而DBA就要不断在这些问题中出生入死,本案例描述的那些不正确的SQL可能给我们带来...

    文章 小麦苗 2017-06-14 944浏览量

  • 大众点评开源分布式监控平台 CAT 深度剖析

    一、CAT介绍 CAT系统原型和理念来源于eBay的CAL的系统,CAT系统第一代设计者吴其敏在eBay工作长达十几年,对CAL系统有深刻的理解。CAT不仅增强了CAL系统核心模型,还添加了更丰富的报表。自2014年开源以来,CAT在携程、陆金所、猎聘网、找钢网等多家互联网公司生产环境应用。 CA...

    文章 developerguy 2016-11-15 2055浏览量

  • 双11数据大屏背后:大规模流式增量计算及应用(附资料)

    首先从理解什么是数据流开始今天的分享,其实在真实的世界中,大部分的数据都是连续产生的数据流,比如手机上产生的GPS信号、用户在互联网上的行为、在线搜索、用户的点击、社交网络分享、即时通信以及一些传感器和物联网设备采集的日志信息等,这些数据都是连续产生的,自然就形成了数据流,在这些数据流产生以后,在...

    文章 小旋风柴进 2017-05-22 1557浏览量

  • 规划一个智能工厂应避免的十个坑

    在当前智能制造的热潮之下,很多企业都在规划建设智能工厂。众所周知,智能工厂的规划建设是一个十分复杂的系统工程,为了少走弯路,AI人工智能的新时代,智能工厂从团队建设、产品生产、设计、技术研发、营销模式、股权结构、服务模式都在发生新的变革,传统的智能制造模式已经无法满足AI新时代企业轻资产重数字化的...

    文章 聂潜 2019-04-19 1854浏览量

1 2 3 4 ... 10 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务