• 蚂蚁金服开源基于TensorFlow的弹性分布式深度学习系统

    所以不应该包含访问特定集群管理系统,请它重启挂掉的进程的代码,所以不易实现弹性调度”,王益指出了二者的区别:“与之相对应的,通过调用 TensorFlow API 实现分布式计算的思路,通信性能往往受到 Python 语言...
    文章 2019-09-11 947浏览量
  • ElasticDL:Kubernetes-native 弹性分布式深度学习系统

    Kubeflow 可以在 Kubernetes 上启动基于 TensorFlow 原生的分布式计算能力的作业。但是 因为后者并不能容错,所以 Kubeflow 并不能无中生有。不能容错,也意味着不 能弹性调度。对弹性调度的诉求 在很多人共用计算...
    文章 2019-09-12 6225浏览量
  • 鱼还是熊掌:浅谈多进程多线程的选择

    一个线程挂掉将导致整个进程挂掉 进程占优 分布式 适应于多核、多机分布式;如果一台机器不够,扩展到多台机器比较简单 适应于多核分布式 进程占优 看起来比较简单,优势对比上是“线程 3.5 v 2.5 进程”,我们只管...
    文章 2010-03-19 1510浏览量
  • 高并发服务端分布式系统设计概要(上)

    写这篇文章的目的,主要是把今年以来学习的一些东西积淀下来,同时作为之前文章《高性能分布式计算与存储系统设计概要》的补充与提升,然而本人水平非常有限,回头看之前写的文章也有许多不足,甚至是错误,希望同学...
    文章 2017-02-09 1425浏览量
  • 惊魂48小时,阿里工程师如何紧急定位线上内存泄露?

    由于后端分布式一致性服务单元由5台Master机器组成,可以容忍同时2台机器挂掉,因此上述报警均没有发现对服务可用性产生影响。但是,在短时间之内频繁发生单个Master服务进程异常,这个对于服务稳定性是个极大隐患,...
    文章 2019-12-20 150浏览量
  • 惊魂48小时,阿里工程师如何紧急定位线上内存泄露?

    由于后端分布式一致性服务单元由5台Master机器组成,可以容忍同时2台机器挂掉,因此上述报警均没有发现对服务可用性产生影响。但是,在短时间之内频繁发生单个Master服务进程异常,这个对于服务稳定性是个极大隐患,...
    文章 2019-12-20 1712浏览量
  • 重新定义数据库的时刻,阿里云数据库专家带你了解...

    但是,时间上,多个交换机全部挂掉的几率非常小,相反,几台机器出问题的概率非常大,所以应该着重于解决常见问题,之后使得C和A无限逼近。下面介绍客户发生的变化,如下图所示。客户对数据库的需求正不断演变,首先...
    文章 2018-05-23 3156浏览量
  • 对Redis分布式锁的一点错误理解

    在每个实例中设置 key 的时候,客户端会设置一个超时时间,这个超时时间应该小于锁的有效时间,以防节点已经挂掉。例如锁有效时间为 10 秒,则超时时间应该在 5-50 毫秒之间。3.客户端通过从当前时间中减去在步骤 1 ...
    文章 2020-04-21 509浏览量
  • 如何设计稳定性横跨全球的 Cron 服务

    这篇文章主要来描述下 Google 是如何实现一套可靠的分布式 Cron 服务,服务于内部那些需要绝大多数计算作业定时调度的团队。在这个系统的实践过程中,我们收获了很多,包括如何设计、如何实现使得它看上去像一个...
    文章 2017-06-05 1091浏览量
  • 分布式深度学习“神器”ElasticDL如何同时提升集群...

    此外,当 worker 数目很多时,作业在执行过程中有 worker 挂掉的概率也会变得很大。如果一个 worker 挂掉,则整个作业重启或者恢复到最近的 checkpoint(Fault Recovery),那么重启之后可能又会有 worker 挂掉导致...
    文章 2020-07-14 3606浏览量
  • 数据库内核——基于HLC的分布式事务实现深度剖析

    这说明了为什么现在的分布式和互联网+结合在一起比较火,一个很重要的原因分布式降低了单点故障对业务带来的的可用性的影响。不仅仅是互联网公司,包括金融类的银行也想往分布式走,一个方面是为了解决容量和扩展...
    文章 2019-05-24 7137浏览量
  • 云栖干货回顾|“顶级玩家”...分布式数据库专场精华解读

    DRDS以及Sharding On MySQL数据库,主要基于MySQL和分布式计算能力,使得计算存储高度可扩展,风险可控。NewSQL数据库,核心特点就是存储与计算分离。Cloud Native DB,强调存储可扩展以及全兼容的能力。而通过并发...
    文章 2019-10-12 5696浏览量
  • Redis实现分布式

    有时候程序就是这么巧,比如说正好一个节点挂掉的时候,多个客户端同时取到了锁。如果你可以接受这种小概率错误,那用这个基于复制的方案就完全没有问题。否则的话,我们建议你实现下面描述的解决方案。单Redis实例...
    文章 2018-02-18 1401浏览量
  • 五分钟学后端技术:一篇文章告诉你什么是云计算

    所以一台服务器上的容器是共享操作系统内核的,容器在不同机器之间的迁移不带内核,这也是很多人声称容器是轻量级的虚拟机的原因。轻不白轻,自然隔离性就差了,一个集装箱把船压漏水了,所有的集装箱一起沉。另一个...
    文章 2020-04-02 2512浏览量
  • 警惕MySQL运维陷阱:基于MyCat的伪分布式架构

    分布式数据库已经进入了全面快速发展阶段。这种发展是与时俱进的,与人的需求分不开,因为现在信息时代的高速发展,导致数据量和交易量越来越大。这种现象首先导致的就是存储瓶颈,因为MySQL数据库实质上还是一个...
    文章 2018-10-11 2302浏览量
  • 分布式数据库选型——数据水平拆分方案

    这个方案优点是保障了数据在多个副本中存在,高可用时有候选副本,也不用担心挂掉一个备副本会影响主副本。它的缺点是不能自动知道哪个候选副本拥有主副本最新最全的数据,也不强制要求两个备副本都要拥有全部数据。...
    文章 2019-06-19 20609浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    而持久化存储,能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly-once,这是状态的另外一个价值。Time,分为 Event time、Ingestion time、Processing time,Flink 的无限数据流是一个持续的过程,...
    文章 2019-08-05 5257浏览量
  • Apache Flink 零基础入门(一):基础概念解析

    而持久化存储,能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly-once,这是状态的另外一个价值。Time,分为 Event time、Ingestion time、Processing time,Flink 的无限数据流是一个持续的过程,...
    文章 2019-07-02 1898浏览量
  • 分布式数据库选型——数据水平拆分方案

    这个方案优点是保障了数据在多个副本中存在,高可用时有候选副本,也不用担心挂掉一个备副本会影响主副本。它的缺点是不能自动知道哪个候选副本拥有主副本最新最全的数据,也不强制要求两个备副本都要拥有全部数据。...
    文章 2019-08-08 2645浏览量
  • Docker不适合部署数据库的7大原因

    Docker 里部署轻量级或分布式数据库,Docker 本身就推荐服务挂掉,自动启动新容器,而不是继续重启容器服务。(3)合理布局应用 对于IO要求比较高的应用或者服务,将数据库部署在物理机或者KVM中比较合适。目前TX云的...
    文章 2020-07-09 617浏览量
  • 以电商网站为例,谈大型分布式架构设计与优化

    本文主题为电商网站架构案例,将介绍如何从电商网站的需求,到单机架构,逐步演变为常用的、可供参考的分布式架构原型。除具备功能需求外,还具备一定的高性能、高可用、可伸缩、可扩展等非功能质量需求(架构目标)...
    文章 2017-11-23 1678浏览量
  • 【阿里飞天】阿里飞天平台总架构师唐洪:飞天开放平台

    在盘古第一块磁盘挂掉,在其他磁盘选择原数据在其他磁盘进行恢复,整个是完全分布式的。50台的集群同样数量五小时就可以完成了。我们在选择原节点和目标节点的时候确保冗余复制完存储空间使用是均衡,确保冗余复制...
    文章 2016-09-11 13944浏览量
  • 基于Redis的分布式锁真的安全吗?(上)

    Martin在这篇文章中谈及了分布式系统的很多基础性的问题(特别是分布式计算的异步模型),对分布式系统的从业者来说非常值得一读。这篇文章大体可以分为两大部分: 前半部分,与Redlock无关。Martin指出,即使我们...
    文章 2017-05-16 2273浏览量
  • 为什么需要消息队列,及使用消息队列的好处?

    但是很可惜,十年前开始流行的C10K说法就是在讲:并发量上来之后,会造成chain reaction,大量的并发不会直接挂掉你的mysql节点,但是会拖慢速度,降低吞吐量,一个玩家的请求由于处理时间太长,导致玩家放弃重试,...
    文章 2018-07-05 7618浏览量
  • 从JAVA多线程理解到集群分布式和网络设计的浅析

    就我个人的经验来说还没遇到过,但并非绝不可能,我想在常规的同一个JVM内部操作的线程会死掉的概率只有系统挂掉,不然SUN的java虚拟机也太不让人信任了;至少从这一点上我们可以决定在绝大部分情况下线程阻塞的主要...
    文章 2011-04-29 1904浏览量
  • Qunar 高速发展下数据库的创新与发展

    (3)HBase 的软件栈是 Java,JVM 的 GC 是个很头疼的问题,在运维过程中多次出现 RegionServer 因为 GC 挂掉的情况,另外很难通过优化来消除访问延时毛刺,给运维造成了很大的困扰。此外,HBase 在编程语言支持访问对...
    文章 2018-07-14 1956浏览量
  • TensorFlow在工程项目中的应用 公开课视频+文字转录...

    这也是数据分布式为什么会存在、并且做得越来越好的一个原因。另外,TensorFlow 支持模型分布式。当我们数据分布式之后,我们的模型分布式,两者结合起来整个训练的速度会变得特别快。在 Tensorflow 里,模型计算...
    文章 2017-08-02 1784浏览量
  • Redlock:Redis分布式锁最牛逼的实现

    这样可以避免服务器端Redis已经挂掉的情况下,客户端还在死死地等待响应结果。如果服务器端没有在规定时间内响应,客户端应该尽快尝试去另外一个Redis实例请求获取锁。客户端使用当前时间减去开始获取锁时间(步骤1...
    文章 2018-12-03 14620浏览量
  • 号称史上最晦涩的算法Paxos,如何变得平易近人?

    分布式一致性算法(Consensus Algorithm)是一个分布式计算领域的基础性问题,其最基本的功能是为了在多个进程之间对某个(某些)值达成一致(强一致);进而解决分布式系统的可用性问题(高可用)。Paxos是最重要的...
    文章 2017-08-03 15034浏览量
  • 分布式系统架构,回顾2020年常见面试知识点梳理(每次...

    分布式分为分布式缓存(Redis)、分布式锁(Redis 或 Zookeeper)、分布式服务(Dubbo 或 SpringCloud)、分布式服务协调(Zookeeper)、分布式消息队列(Kafka、RabbitMq)、分布式 Session、分布式事务、分布式...
    文章 2020-12-30 229浏览量
1 2 3 4 ... 11 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化