• 关于

    工作流常见故障

    的搜索结果
  • Apache Flink 是什么?

    Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。 接下来,我们来介绍一下 Flink 架构中的重要方面。 处理无界和有界数据 任何类型的数据都可以形成一种事件流。信用卡交易...

    文章 阿里云实时计算Flink 2020-07-01 4148浏览量

  • 如何有效可靠地管理大规模 Kubernetes 集群?

    前言 Kubernetes 以其超前的设计理念和优秀的技术架构,在容器编排领域拔得头筹。越来越多的公司开始在生产环境部署实践 Kubernetes,在阿里巴巴和蚂蚁金服 Kubernetes 已被大规模用于生产环境。 Kubernetes 的出现使得广大开发同学也能运维复杂的分布式系统,它大幅降低...

    文章 缪克卢汉 2019-08-15 817浏览量

  • 负载均衡故障排错指南 (1)

    1 写在前面的话 从应用处理的角度来看,负载均衡工作于客户端和应用服务之间。从网络协议的角度来看,客户端工作在网络层和应用层之间。网络上专门针对负载均衡的故障排错的文章非常少,而一般网络故障或应用问题的故障排查方法对于负载均衡来说并不太适用。 一般来说,配置一个设备比较容易,但是要排查故障却很难,...

    文章 科技小能手 2017-11-16 1162浏览量

  • 好玩又实用,阿里巴巴开源混沌工程工具 ChaosBlade

    减少故障的最好方法就是让问题经常性的发生。在可控范围或环境下,通过不断重复失败过程,持续提升系统的容错和弹性能力。 那么,实施一次高效的混沌工程实验,需要几步呢? 答案:2 步。 ① 登陆 ChaosBlade ② 下载 release 版本,打造故障演练专属工具 高可用架构是保障服务稳定性的核...

    文章 中间件小哥 2019-03-28 12112浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸多有代表...

    文章 技术小能手 2017-06-19 3370浏览量

  • 在 Ali Kubernetes 系统中,我们这样实践混沌工程

    作者| 阿里云智能事业群高级测试开发工程师 智妍 在传统的软件测试中,我们通常通过一个给定的条件来判断系统的反馈,通过断言来判断是否符合预期,测试条件和结果通常比较明确和固定。而混沌工程,是通过注入一些“不确定”因素,象放进了一群淘气的猴子,在系统资源、可用性、安全性、延迟、压力等方面进行捣乱,而...

    文章 jessie筱姜 2019-03-13 2601浏览量

  • 云原生高可用技术体系构建

    以下是视频内容的精华整理。 伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级飞速增长,也给互联网业务的技术架构带来了严峻挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布...

    文章 영~ 2020-06-18 321浏览量

  • Apache Flink实战(一) - 初识Flink

    了解Flink是什么,Flink应用程序运行的多样化,对比业界常用的流处理框架,Flink的发展趋势,Flink生态圈,Flink应用场景及Flink如何进行高效的Flink学习。 0 相关源码 1 前言 1.1 功能 1.2 用户 国际 国内 1.3 特点 ◆ 结合Java、Scal...

    文章 javaedge 2019-06-15 2106浏览量

  • 阿里如何做到百万量级硬件故障自愈?

    随着阿里大数据产品业务的增长,服务器数量不断增多,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建,真正在影响业务之前实现硬件故障自动闭环策略,对于常见的硬件故障无需人工干预...

    文章 隐林 2018-11-24 3317浏览量

  • 阿里如何做到百万量级硬件故障自愈?

    随着阿里大数据产品业务的增长,服务器数量不断增多,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建,真正在影响业务之前实现硬件故障自动闭环策略,对于常见的硬件故障无需人工干预...

    文章 技术小能手 2018-11-19 2610浏览量

  • 《分布式系统:概念与设计》一1.1 简介

    1.1 简介 计算机网络无处不在。互联网也是其中之一,因为它是由许多种网络组成的。移动电话网、协作网、企业网、校园网、家庭网、车内网,所有这些,既可单独使用,又可相互结合,它们具有相同的本质特征,这些特征使得它们可以放在分布式系统的主题下来研究。本书旨在解释影响系统设计者和实现者的连网的计算机的特...

    文章 华章计算机 2017-08-01 883浏览量

  • 提升应用程序弹性:保障工作负载正常运行

    通过集群化、复制、快照、微服务和应用程序设计来提高企业工作负载的应用程序弹性和可用性。 应用程序的弹性和可用性是现代企业工作负载的关键属性。应用程序需要在硬件故障发生后,扛过服务故障(例如负载平衡器和域名系统错误)保持工作状态,并且可以忍受局域网和互联网中断的影响。每个事件都可能会影响业务收入、声...

    文章 行者武松 2017-08-22 967浏览量

  • Serverless 工作流实现分布式定时调度

    Serverless 工作流 是一个高可用的任务编排服务,提供选择、并行、循环等流程控制,可视化的执行,异常捕捉和自动重试。极大简化复杂系统的开发和调试,让开发人员只需编写业务逻辑,免去流程控制和异常处理的重复性代码。 前言 对很多业务来说定时调度是最常见的需求,比如实现一个集群多台机器的定时状态...

    文章 santihyt 2020-06-02 776浏览量

  • 函数组合的 N 种模式

    随着以函数即服务(Function as a Service)为代表的无服务器计算(Serverless)的广泛使用,很多用户遇到了涉及多个函数的场景,需要组合多个函数来共同完成一个业务目标,这正是微服务“分而治之,合而用之”的精髓所在。本文以阿里云函数计算为例,试图全面介绍函数组合的常见模式和使...

    文章 阿里巴巴云原生小助手 2020-01-19 280浏览量

  • 阿里云马劲:保证云产品持续拥有稳定性的实践和思考

    对所有的技术人员来说,业务可靠性提升是一个系统工程,涉及网络管理、IDC管理、服务器管理、交付管理、变更管理、故障管理、监控管理、预案管理、根因分析、容量规划、容灾演练、标准化建设、集成测试、泛操作管理、权限管理、数据安全管理等方方面面,随着先进技术的应用、业务云化、微服务化等,业务架构变得更加复...

    文章 云攻略小攻 2018-12-06 15385浏览量

  • 提升应用程序弹性:保障工作负载正常运行

    通过集群化、复制、快照、微服务和应用程序设计来提高企业工作负载的应用程序弹性和可用性。 应用程序的弹性和可用性是现代企业工作负载的关键属性。应用程序需要在硬件故障发生后,扛过服务故障(例如负载平衡器和域名系统错误)保持工作状态,并且可以忍受局域网和互联网中断的影响。每个事件都可能会影响业务收入、声...

    文章 琴瑟 2017-08-15 923浏览量

  • 移动应用测试计划

    确定功能和属性 User story: A high-level user or business requirement commonly used in Agile software development, typically consisting of one or more senten...

    文章 python人工智能命理 2019-04-16 1172浏览量

  • Flink 实战:如何解决生产环境中的技术难题?

    大数据作为未来技术的基石已成为国家基础性战略资源,挖掘数据无穷潜力,将算力推至极致是整个社会面临的挑战与难题。 Apache Flink 作为业界公认为最好的流计算引擎,不仅仅局限于做流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎,以其高吞吐低延时的优异实时计算能力、支持海量数据的...

    文章 阿里云实时计算Flink 2019-11-22 2259浏览量

  • 如何用好PostgreSQL的备份与恢复?

    如何用好PostgreSQL的备份与恢复? 作者 赵成 日期 2017-10-22 标签 PostgreSQL , 数据库高可用 , 备份与恢复 高可用性是数据库的关键指标,简单说就是要做到故障时间短,数据不丢失,能够回退到指定位置(时间/事务)。实现高可用的基础是数据库的备份与恢复技术。 Po...

    文章 chengxiaozc 2017-10-22 7310浏览量

  • 《VMware vCAT权威指南:成功构建云环境的核心技术和方法》一3.7 编排和扩展

    本节书摘来自华章出版社《VMware vCAT权威指南:成功构建云环境的核心技术和方法》一书中的第3章,第3.7节,作(美)VMware vCAT 团队,更多章节内容可以访问云栖社区“华章计算机”公众号查看 3.7 编排和扩展 vCloud环境由多种可暴露Web服务的组件组成。vCloud编排(O...

    文章 华章计算机 2017-07-03 914浏览量

  • [雪峰磁针石博客]大数据Hadoop工具python教程9-Luigi工作流

    管理Hadoop作业的官方工作流程调度程序是Apache Oozie。与许多其他Hadoop产品一样,Oozie是用Java编写的,是基于服务器的Web应用程序,它运行执行Hadoop MapReduce和Pig的工作流作业。 Oozie工作流是在XML文档中指定的控制依赖性指导非循环图(DAG)...

    文章 python人工智能命理 2019-01-28 1327浏览量

  • 《大数据管理概论》一1.4 大数据的处理模式

    本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.4节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看 1.4 大数据的处理模式 无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce。这些系统将分布式编程简化为自动提供位置...

    文章 华章计算机 2017-05-02 1521浏览量

  • 10 人,2 个月 | 虾米音乐的监控体系升级之路

    背景 监控一直是服务端掌握应用运行状态的重要手段,经过近几年的发展,阿里虾米服务端目前已经有 100 多个 Java 应用,承担核心业务的应用也有将近 50 个,对于应用的监控配置也是因人而异。有的人配置的监控比较细,有的应用在经历了多人开发阶段以后,监控就逐渐疏于管理,有些应用的监控项最后修改时...

    文章 中间件小哥 2019-08-22 2080浏览量

  • 函数组合的N种方式

    随着以函数即服务(Function as a Service)为代表的无服务器计算(Serverless)的广泛使用,很多用户遇到了涉及多个函数的场景,需要组合多个函数来共同完成一个业务目标,这正是微服务“分而治之,合而用之”的精髓所在。本文以阿里云函数计算为例,试图全面介绍函数组合的常见模式和使...

    文章 旗帜是方向 2019-10-25 1127浏览量

  • 万级规模 K8s 如何管理?蚂蚁双11核心技术公开

    阿里妹导读:Kubernetes 大幅降低了容器化应用部署的门槛,并以其超前的设计理念和优秀的技术架构,在容器编排领域拔得头筹。越来越多的公司开始在生产环境部署实践。本文将分享蚂蚁金服是如何有效可靠地管理大规模 Kubernetes 集群的,并会详细介绍集群管理系统核心组件的设计。 系统概览 K...

    文章 技术小能手 2019-11-13 5968浏览量

  • 云原生高可用技术体系的构建

    伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级也在飞速增长,给互联网业务的技术架构带来了严峻的挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布式、分层的多组件技术架构...

    文章 中间件小哥 2020-07-20 721浏览量

  • 八年来我们到底经历了什么?——中间件专家带你“重走”双11高可用架构演进之路

    双11的技术挑战 双11技术挑战的本质使用用有限的成本去是实现最大化的用户体验和集群整体吞吐能力,用最合理的代价解决零点峰值,支撑好业务的狂欢。阿里做双11已经有八年之久了,八年来双11的交易额增长200倍,交易峰值增长400多倍,系统复杂度和大促支撑难度以指数级攀升;并且经过多年的发展,双11技...

    文章 场景研读 2017-08-04 7600浏览量

  • PostgreSQL 10.1 手册_部分 III. 服务器管理_第 26 章 高可用、负载均衡和复制_26.1. 不同方案的比较

    26.1. 不同方案的比较 共享磁盘故障转移 共享磁盘故障转移避免了只使用一份数据库拷贝带来的同步开销。 它使用一个由多个服务器共享的单一磁盘阵列。如果主数据库服务器失效, 后备服务器则可以挂载并启动数据库,就好像它从一次数据库崩溃中恢复过来了。 这是一种快速的故障转移,并且不存在数据丢失。...

    文章 李博 bluemind 2018-10-03 1227浏览量

  • 备战双 11!蚂蚁金服万级规模 K8s 集群管理系统如何设计?

    作者 | 蚂蚁金服技术专家 沧漠 关注『阿里巴巴云原生』公众号,回复关键词“1024”,可获取本文 PPT。 前言 Kubernetes 以其超前的设计理念和优秀的技术架构,在容器编排领域拔得头筹。越来越多的公司开始在生产环境部署实践 Kubernetes,在阿里巴巴和蚂蚁金服 Kubernete...

    文章 阿里巴巴云原生小助手 2019-10-28 5097浏览量

  • 阿里大数据运维新成员——24小时待命!有求必应!能说会做!

    序言 阿里大数据计算平台包含了广泛的数据计算相关产品与服务,包括MaxCompute通用计算、StreamCompute实时流计算、PAI机器学习、Flash图计算及其上的一站式开发平台Dataworks。同时计算平台拥有着多个全球机房、十万多机器的部署规模,在这样的体量下,线上的作业故障分析与用...

    文章 技术小能手 2019-03-27 1611浏览量

1 2 3 4 ... 20 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务