• 关于

    作业请求故障原因

    的搜索结果
  • 走近伏羲,谈5000节点集群调度与性能优化

    5K项目是飞天平台的里程碑,系统在规模、性能和容错方面都得到了飞跃式的发展,达到世界领先水平。伏羲作为飞天平台的分布式调度系统,能支持单集群5000节点,并发运行10000作业,30分钟完成100TB数据Terasort,性能是当时Yahoo ! 在Sort Benchmark上世界纪录的两倍。 ...

    文章 yq传送门 2016-12-18 4199浏览量

  • 《深入理解Hadoop(原书第2版)》——2.3Hadoop系统的组成

    本节书摘来自华章计算机《深入理解Hadoop(原书第2版)》一书中的第2章,第2.3节,作者 [美]萨米尔·瓦德卡(Sameer Wadkar),马杜·西德林埃(Madhu Siddalingaiah),杰森·文纳(Jason Venner),译 于博,冯傲风,更多章节内容可以访问云栖社区“华章计...

    文章 华章计算机 2017-05-02 1340浏览量

  • 【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题

    案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 一、背景介绍 以往在处理用户投诉或者开发过程中遇到的(特定商品在淘宝搜索中搜不到,排序靠后,价格不正确,打标不准,结果不准确等)问题或线上故障时,分析定位此类问题的过程非常繁琐: 根据用户或者搜索标识提交ODPS离线任务,捞取用户...

    文章 付空 2019-03-01 2176浏览量

  • 详解 Flink 指标、监控与告警

    整理:李培殿 & 杨伟海(Flink 社区志愿者)校对:杨伟海(Flink 社区志愿者) 摘要:本文由美团点评研发工程师孙梦瑶分享,主要介绍 Flink 的指标监控和报警的内容,分为以下四部分: 监控告警链路:基于美团点评实时计算平台的实践 常用的监控项:哪些指标可以高效地衡量作业 指...

    文章 阿里云实时计算Flink 2020-07-23 1264浏览量

  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    一 、稳定大于一切 盒马的线下作业稳定性要求极高,假如门店pos无法付款了,排起的支付长队伍能让人把门店闹翻,假如配送员无法揽收了,在家里预定的午餐材料的饥肠辘辘的客户能把投诉电话打爆,甚至会形成广泛的社会舆论。盒马安全生产至关重要,稳定大于一切。​盒马配送智能调度负责将订单指派给骑手,是配送作业...

    文章 檸,铮 2020-02-18 504浏览量

  • 字节跳动 Flink 单点恢复功能实践

    背景 在字节跳动的实时计算场景中,我们有很多任务(数量 2k+)会直接服务于线上,其输出时延和稳定性会直接影响线上产品的用户体验,这类任务通常具有如下特点: 流量大,并发高(最大的任务并行度超过 1w) 拓扑类似于多流 Join,将各个数据源做整合输出给下游,不依赖 Checkpoint 没有使...

    文章 阿里云实时计算Flink 2020-09-29 5568浏览量

  • 《Hadoop集群与安全》一2.2 设置NameNode

    本节书摘来自华章出版社《Hadoop集群与安全》一书中的第2章,第2.2节,作者 (美)Danil Zburivsky Sudheesh Narayanan,更多章节内容可以访问云栖社区“华章计算机”公众号查看 2.2 设置NameNode 在本节中,我们将一步一步对NameNode服务进行安装以...

    文章 华章计算机 2017-07-03 2901浏览量

  • 《Spark大数据分析:核心概念、技术及实践》一 第3章 Spark Core

    本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第3章 Spark Core Spark是大数据领域最活跃的开源项目,甚至比Ha...

    文章 华章计算机 2017-05-02 832浏览量

  • Apache Flink 零基础入门教程(六):状态管理及容错机制

    作者:孙梦瑶整理:韩非 本文主要分享内容如下: 状态管理的基本概念; 状态的类型与使用示例; 容错机制与故障恢复; 一.状态管理的基本概念 1.什么是状态 首先举一个无状态计算的例子:消费延迟计算。假设现在有一个消息队列,消息队列中有一个生产者持续往消费队列写入消息,多个消费者分别从消息队列...

    文章 Ververica 2019-08-05 857浏览量

  • Apache Flink 零基础入门教程(六):状态管理及容错机制

    **作者:孙梦瑶整理:韩非** 本文主要分享内容如下: 状态管理的基本概念; 状态的类型与使用示例; 容错机制与故障恢复; 一.状态管理的基本概念 1.什么是状态 首先举一个无状态计算的例子:消费延迟计算。假设现在有一个消息队列,消息队列中有一个生产者持续往消费队列写入消息,多个消费者分别从...

    文章 阿里云实时计算Flink 2019-08-05 4764浏览量

  • 【X-Pack解读】阿里云Elasticsearch X-Pack 机器学习组件功能详解

    X-Pack Machine Learning 数据复杂多变,当出现基础设施问题、入侵者或业务问题时,几乎不可能利用规则或通过人工监视仪表板发现问题。阿里云Elaticsearch的X-Pack引入了机器学习功能machine learning,可以实时地自动模拟 Elasticsearch 数据...

    文章 工程师甲 2017-12-11 5396浏览量

  • ORACLE OEM

    OracleEnterpriseManager(Oracle企业管理器,简称OEM)是通过一组Oracle程序,为管理分布式环境提供了管理服务。OEM包括了一组DBA工具,一个repository,以及一个图形化显示的控制台。OEM控制台与每一个服务器上的智能化**(IntelligentAgen...

    文章 double2li 2012-09-20 1149浏览量

  • 『StabilityGuide』| 10+位阿里技术专家共同发起稳定性知识库开源项目

    我们穿过山和大海,也见过人山人海。我们见过各类故障,也排过千雷万险。这一次,不如我们一起,开启稳定性的探索之旅。让无法解决的问题少一点点,让世界的确定性多一点点。 无论是前端业务的开发者,还是后端架构的开发者,都会遇到业务稳定性的难题。但稳定性的话题涉及之广、之深,很难通过一两篇文章道清原委。因此...

    文章 中间件小哥 2019-08-02 5215浏览量

  • WebLogic集群体系架构(原创)

    WebLogic Server集群概述  WebLogic Server 群集由多个 WebLogic Server 服务器实例组成,这些服务器实例同时运行并一起工作以提高可缩放性和可靠性。对于客户端而言,群集是一个WebLogic Server 实例。构成群集的服务器实例可以在同一台计算机上运行...

    文章 ghost丶桃子 2016-05-24 2223浏览量

  • Hadoop工作机制

    可以只用一行代码来运行MapReduce作业:JobClient.runJon(conf),Job作业运行时参与的四个实体:      1.JobClient 写代码,配置作业,提交作业。      2.JobTracker:初始化作业,分配作业,协调作业运行。这是一个java程序,主类是Job...

    文章 suifeng3051 2014-03-28 1238浏览量

  • Flink在快手的应用实践与技术演进之路

    Flink在快手应用场景 快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中,然后接入 Flink 做实时计算,其中包括实时 ETL、实时分析、Interval Join 以及实时训练,最后的结果存到 Druid、ES 或者 HBase 里面,后面...

    文章 阿里云E-MapReduce团队 2019-07-26 1142浏览量

  • Hadoop工作机制

    可以只用一行代码来运行MapReduce作业:JobClient.runJon(conf),Job作业运行时参与的四个实体:      1.JobClient 写代码,配置作业,提交作业。      2.JobTracker:初始化作业,分配作业,协调作业运行。这是一个java程序,主类是Job...

    文章 老嗨 2014-03-28 1267浏览量

  • 一次线上OOM故障排查经过

    转贴:http://my.oschina.net/flashsword/blog/205266   本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考。 现象 我们之前有一个计算作业。最近经常出现不稳定,无法正常响应的情况。具体表现是:各种...

    文章 孤剑 2014-03-06 1034浏览量

  • 面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘

    本文作者 李超 阿里云智能 资深技术专家 编者按 伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。 随阿里经济体和阿里云丰...

    文章 晋恒 2020-05-13 2215浏览量

  • 面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘

    本文作者 李超 阿里云智能 资深技术专家 编者按 伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。 随阿里经济体和阿里云丰...

    文章 晋恒 2020-05-13 1575浏览量

  • 日均处理万亿数据!Flink在快手的应用实践与技术演进之路

    作者:董亭亭整理:蒋晓峰 作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团。主要研究领域包括:分布式计算、调度系统、分布式存储等系统。 本次的分享包括以下三个部...

    文章 阿里云实时计算Flink 2019-08-03 2889浏览量

  • 日均处理万亿数据!Flink在快手的应用实践与技术演进之路

    作者:董亭亭整理:蒋晓峰 作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团。主要研究领域包括:分布式计算、调度系统、分布式存储等系统。 本次的分享包括以下三个部...

    文章 Ververica 2019-07-17 6261浏览量

  • 历时1年,上百万行代码!首次揭秘手淘全链路性能优化(上)

    作者|手淘用户体验提升项目组 出品|阿里巴巴新零售淘系技术部 导读:自阿里在11年提出 All in 无线之后,手淘慢慢成长为承载业务最多,体量巨大的航母级移动端应用。与之相应的,手淘离轻量,快速,敏捷这些关键词却越来越远,启动慢,使用卡逐步成为用户使用过程中的主要体验问题。为此,手淘的技术团队启...

    文章 KB小秘书 2019-07-24 1706浏览量

  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    点击图片或戳我查看详情和投简历作者 | 晓土  阿里巴巴高级工程师 姊妹篇阅读推荐:《云原生时代,分布式系统设计必备知识图谱(内含22个知识点)》 导读:本文力求从分布式基础理论、架构设计模式、工程应用、部署运维、业界方案这几大方面,介绍基于 MSA(微服务架构)的分布式知识体系大纲,从而对 SO...

    文章 阿里巴巴云原生小助手 2019-10-16 4995浏览量

  • 《Spark与Hadoop大数据分析》——2.1 Apache Hadoop概述

    2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理。Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建。Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障。此外,H...

    文章 华章计算机 2017-09-01 1387浏览量

  • 《Spark与Hadoop大数据分析》一一2.1 Apache Hadoop概述

    本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点...

    文章 华章计算机 2017-07-03 1928浏览量

  • 【阿里飞天】飞天5K:开放比开源更有意义

    飞天5K纪念碑,背后是已经部署了5K的机房 到目前为止,只有Google、Facebook这样的顶级技术型IT公司,其集群规模有能力按照5000来划分。今年8月,历时4个月,阿里集团涵括云梯1空间优化与跨机房集群扩展、以及云梯2单集群规模从1500台升级到5000台,同时实现跨集群扩展的5K项目...

    文章 阿里云头条 2016-09-11 6058浏览量

  • 理解SQL代理错误日志

    如我们在这个系列的前几篇文章所见,SQL Server代理是由一系列的作业步骤组成,每个步骤是不同类型将要进行的工作。如果你在第4篇所见,SQL Server代理也提供使用数据库邮件发送提醒的能力。如果出现问题,不管怎样, 你必须去查看下数据库邮件错误日志。在这篇文章里,你会学到如何理解和查看SQ...

    文章 范大脚脚 2017-11-29 1158浏览量

  • 理解SQL代理错误日志

    如我们在这个系列的前几篇文章所见,SQL Server代理是由一系列的作业步骤组成,每个步骤是不同类型将要进行的工作。如果你在第4篇所见,SQL Server代理也提供使用数据库邮件发送提醒的能力。如果出现问题,不管怎样, 你必须去查看下数据库邮件错误日志。在这篇文章里,你会学到如何理解和查看SQ...

    文章 范大脚脚 2017-11-26 1126浏览量

  • Windows Azure HandBook (1) IaaS相关技术

      《Windows Azure Platform 系列文章目录》     1.Microsoft Azure底层是否由System Center和Hyper-V构成?   Microsoft Azure虽然支持Hyper-V的VHD直接上传至Azure云端进行管理,但是Azure底层技术是微软自...

    文章 zting科技 2017-10-04 756浏览量

1 2 3 4 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT