• 弹性服务与容错处理

    下面讲述一下在阿里云Kubernetes容器服务基础之上,如何快速搭建一套分布式弹性服务与容错处理框架Hystrix及其监控仪表板。准备Kubernetes环境 阿里云容器服务Kubernetes 1.9.3目前已经上线,可以通过容器服务管理...
    文章 2018-05-25 4306浏览量
  • 线性一致性与全序广播-《Designing Data-Intensive ...

    上一篇聊了聊构建分布式系统所面临的困难,这篇将着重讨论构建容错分布系统的算法与协议。构建容错系统的最佳方法是使用通用抽象,允许应用程序忽略分布式系统中的一些问题。本篇我们先聊一聊线性一致性,以及与...
    文章 2018-02-19 1158浏览量
  • 蚂蚁金服开源基于TensorFlow的弹性分布式深度学习系统

    而弹性调度是由分布式框架和分布式操作系统(集群管理系统)一起实现的。比如,当有进程挂掉的时候,分布式框架应该通知集群管理系统新启进程来补位 —— 至于集群管理系统能不能启动起来,取决于用户剩余 quota 和...
    文章 2019-09-11 959浏览量
  • 《七周七并发模型》第五章Actor总结

    actor模型是应用最广泛的编程模型之一——不仅提供了并发支持,还支持分布式、错误检测和容错。当面对越来越大的分布式需求时,该模型是解决问题的绝佳选择。下一章我们将学习通信顺序进程(Communicating ...
    文章 2017-05-23 1236浏览量
  • 《七周七并发模型》第五章Actor总结

    actor模型是应用最广泛的编程模型之一——不仅提供了并发支持,还支持分布式、错误检测和容错。当面对越来越大的分布式需求时,该模型是解决问题的绝佳选择。下一章我们将学习通信顺序进程(Communicating ...
    文章 2016-04-05 1556浏览量
  • 架构设计|分布式事务①概念简介和基础理论

    所以如何解决C(一致性)和A(可用性)就成分布系统的最大痛点。为何不能同时满足C和A,这也是基于分布式架构特点看,不同服务直接不能保证通信是100%成功,一旦出现失败情况,一致性和可用性就无法满足。既然强...
    文章 2020-07-09 198浏览量
  • 当 Messaging 遇上 Jepsen

    如何分布系统在困境(硬件故障、软件故障、人为错误)中仍可正确完成功能,并能达到期望的性能水准,这不仅要从算法设计和代码实现上解决,还需要利用分布系统测试工具提前模拟各种故障,从失败中找到深层的问题...
    文章 2019-11-22 4955浏览量
  • 盘古:阿里云飞天分布式存储系统设计深度解析

    分布系统的核心是面向容错的设计: 数据安全是一种信仰:E2E Checksum;后台静默扫描;系统bug,硬件故障,运维操作的容错。大规模的系统中,总会遇到各种各样的问题,当这些问题搅在一起时就会变得非常棘手。环境...
    文章 2016-11-17 38235浏览量
  • ElasticDL:Kubernetes-native 弹性分布式深度学习系统

    9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,...
    文章 2019-09-12 6227浏览量
  • 存储-盘古,阿里云飞天分布式存储系统设计深度解析

    分布系统的核心是面向容错的设计: 数据安全是一种信仰:E2E Checksum;后台静默扫描;系统bug,硬件故障,运维操作的容错。大规模的系统中,总会遇到各种各样的问题,当这些问题搅在一起时就会变得非常棘手。环境...
    文章 2017-07-19 6406浏览量
  • 云原生时代|分布系统设计知识图谱(内含22个知识点...

    我们身处于一个充斥着分布系统解决方案的计算机时代,无论是支付宝、微信这样顶级流量产品、还是区块链、IOT等热门概念、抑或如火如荼的容器生态技术如Kubernetes,其背后的技术架构核心都离不开分布系统。...
    文章 2019-09-26 7201浏览量
  • 分布式架构全方位立体无死角解析

    Free Replicated Data Types):我们了解到分布式一些规律原则之后,就要着手考虑如何来实现解决方案,一致性算法的前提是数据结构,或者说一切算法的根基都是数据结构,设计良好的数据结构加上精妙的算法可以高效的...
    文章 2019-10-12 6378浏览量
  • 系统设计之——架构师职责和设计原则

    分布式存储系统的挑战不在于存储理论,而在于如何做出稳定运行且能够逐步进化的系统。2.设计原则 大规模分布式存储系统有一些可以参考的设计准则: 1)容错。服务器可能宕机,网络交换机可能发生故障,服务器时钟...
    文章 2018-11-18 2574浏览量
  • 几个典型场景的系统设计解决方案

    一、分布系统的GFS、MapReduce和Bigtable (1)GFS一致性模型 GFS一致性模型是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。现在开源...
    文章 2016-05-05 3812浏览量
  • Hadoop生态系统

    其中 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境。在一个宽泛而不断变化的分布式计算领域,Hadoop凭借什么优势能脱颖而出呢?1.运行方便:Hadoop是运行在由一般商用机器构成的大型集群上。...
    文章 2018-01-06 2168浏览量
  • 分布式快照算法:Chandy-Lamport

    上一篇文章最后说到 Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?...
    文章 2019-01-24 21512浏览量
  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    它可能受系统错误、基础架构问题、恶意攻击和系统负载的影响。分布式系统通常为用户提供服务级别协议(SLA),因此应用程序必须设计为最大化可用性。健康检查:系统实现全链路功能检查,外部工具定期通过公开端点...
    文章 2019-10-16 6154浏览量
  • Joe Armstrong 论文《面向软件错误构建可靠的分布式...

    在阅读开源项目时,学习语言技巧是一方面,更为重要的是看这个项目是解决了什么问题,如何解决的,整体思路是怎样的. 3.软件构造指南——我们如何来规划一个系统?我们需要一个明确的软件构造指南集.我们的系统将由一个...
    文章 2017-12-03 1645浏览量
  • 大数据流式计算的应用特征和技术挑战

    如何构建低时延、高带宽、持续可靠、长期运行的大数据流式计算系统是当前亟待解决的问题。本文针对大数据环境中,流式计算应用所呈现出的诸多鲜明特征进行了系统化的分析,并从系统架构的角度,给出了大数据流式计算...
    文章 2017-07-04 1130浏览量
  • 分布式快照算法:Chandy-Lamport

    上一篇文章最后说到 Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?...
    文章 2019-08-03 672浏览量
  • Facebook的实时流处理技术——...分布式的内存数据库...

    本文介绍了Facebook在设计该系统时从易用性、性能、容错、可伸缩性以及正确性等方面考虑所做的重要设计决策,这些决策和系统如何满足秒级的延迟需求,以及在构建该系统的过程中Facebook所总结的经验教训。...
    文章 2017-11-15 1490浏览量
  • 容错和高性能如何兼得:Flink创始人谈流计算核心架构...

    由于这些问题带来的诸多复杂性,开源生态系统多个系统都在尝试多种方式来解决容错问题。容错机制的设计将对框架设计预计编程模型都有深远的影响,导致难以在现有的流式框架上类似插件机制一样扩展实现不一样的容错...
    文章 2018-11-14 2122浏览量
  • 分布式一致性算法到区块链共识机制

    故障错误可以说是分布系统中必须考虑并解决的最基本、最常见的一类错误。Byzantine Fault 上文的故障错误,仍然基于一个很简单的假设:节点要么不正常工作或响应,要么能正常工作或响应,但不能口是心非、阳奉阴违...
    文章 2019-05-13 2560浏览量
  • 阿里云Kubernetes SpringCloud 实践进行时(4):分布式...

    下面讲述一下在阿里云Kubernetes容器服务基础之上,如何快速搭建一套分布式追踪系统。准备Kubernetes环境 阿里云容器服务Kubernetes 1.9.3目前已经上线,可以通过容器服务管理控制台非常方便地快速创建 Kubernetes ...
    文章 2018-05-25 4229浏览量
  • 什么是分布系统,这么讲不信你不会

    Fallacies_of_distributed_computing很有意思,介绍了分布系统新手可能的错误的假设: The network is reliable.Latency is zero. Bandwidth is infinite.The network is secure.Topology doesn't change.There is...
    文章 2019-12-03 1630浏览量
  • 数据系统架构——Lambda architecture

    对于大规模的分布系统来说,人和机器的错误每天都可能会发生,如何应对人和机器的错误,让系统能够从错误中快速恢复尤其重要。b、Low latency reads and updates(低延时):很多应用对于读和写操作的延时要求非常...
    文章 2016-07-21 7775浏览量
  • 微服务架构

    分布系统要在这三个方面取得权衡,一致性(consistency),可用性(availability)和分区容错性(partition tolerance),只能保证三个中的两个方面,这就是CAP定理。一致性要求分布式环境中获取到的数据是完全一致的。...
    文章 2019-08-04 984浏览量
  • 分布式存储系统基础

    分布式存储系统通过将复制协议将数据同步到多个存储节点,并保证多个副本的数据一致性。同一份数据的多个副本往往有一个副本为主副本(Primary),其他副本为备副本(Backup),由主副本将数据复制到备副本。复制协议...
    文章 2017-08-09 1639浏览量
  • 【独家】一文读懂非关系型数据库(NoSQL)

    Paxos 算法解决的问题是一个分布系统如何就某个值(决议)达成一致。一个典型的场景是,在一个分布式数据库系统中,如果各节点的初始状态一致,每个节点执行相同的操作序列,那么他们最后能得到一个一致的状态。为...
    文章 2017-05-01 1952浏览量
  • 《大数据系统构建:可扩展实时数据系统构建原理与最佳...

    虽然这种方式试图使系统具备可扩展性和对机器故障的可容忍性,但无法使系统具备对人为错误的应对方式。无论你怎样努力试图阻止错误的产生,它都将不可避免地在生产环境中出现。1.2.5 到底是哪里出错了 随着简单网络...
    文章 2017-05-02 1299浏览量
1 2 3 4 ... 14 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化