• 宜信微服务任务调度平台建设实践

    4)调度自适应任务分配 任务执行过程中出现失败、异常时,可以根据任务定制的策略进行多点重新唤醒任务,保证任务的不间断执行。我们设定了很多策略,比如某个Task出现问题了怎么办?是再唤醒一次?还是不管了?...
    文章 2019-10-22 1816浏览量
  • 从资源管理角度认识 K8S

    Pod一般会调度到资源容量大于Pod资源需求的节点上。一般情况下,节点OS和K8S管理组件会预分配一些节点资源,可分配的资源容量通常小于节点资源总量。Scheduler可以调度的资源配置是指节点可分配资源,也称节点容量...
    文章 2020-11-26 1473浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4724浏览量
  • 全方位对比Mesos、Omega和Borg

    在高性能计算(HPC)的世界中,关于上千核CPU的调度有丰富的文献,但他们的问题域比数据中心调度系统要解决什么更简单,到底该用Mesos/Borg还是与他们同类的其他产品。让我们从几个维度对他们进行一次对比。为具体...
    文章 2016-04-11 1733浏览量
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    小叽导读:提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是客服资源。今天,我们邀请阿里高级技术专家力君,为大家分享自动、...
    文章 2019-02-20 1004浏览量
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    小叽导读:提到调度,大家脑海中可能想起的是调度阿里云的海量机器资源,而对于阿里集团客户体验事业群(CCO)而言,我们要调度的不是机器,而是客服资源。今天,我们邀请阿里高级技术专家力君,为大家分享自动、...
    文章 2019-08-14 900浏览量
  • 为减少用户电话排队,阿里研发了智能客服调度系统

    什么客服需要调度?阿里集团客户体验事业群(CCO)目前承接了阿里集团以及生态体的客户服务业务,我们的客户通过各个渠道来寻求解决各类问题,每天的进线量巨大,而且经常伴随着突发性进线,比如天猫代金券出了...
    文章 2018-09-05 4557浏览量
  • Flink 执行引擎:流批一体的融合之路

    四、流批一体 DAG SchedulerUnified DAG Scheduler 要解决什么问题原来 Flink 有两种调度的模式:一种是流的调度模式,在这种模式下,Scheduler 申请到一个作业所需要的全部资源,然后同时调度这个作业的全部 Task...
    文章 2021-03-25 2159浏览量
  • “后红海”时代,大数据体系到底是什么?中篇

    计算调度:随着大数据业务的飞速增长和新计算模型的持续迭代,计算调度框架需要融合 AI 能力,以更好的动态自适应性应支持千万量级甚至更高量级的超大规模计算。单机调度:Fuxi 早年解决了作业快速启动和结束、资源...
    文章 2021-10-28 16浏览量
  • 回归架构本质,重新理解微服务

    中间的技术研究、产品研发、运维管理就会出现非常多的资源浪费。弊端五:难以考核 怎么衡量一个川菜厨师和一个鲁菜厨师谁更优秀?当每个团队都是一个闭环,采用不同技术栈、不同的技术组件、不同的维护方式和规范时...
    文章 2019-08-20 5587浏览量
  • 基于MaxCompute的数仓数据质量管理

    随着业务的发展,业务数据库(MaxCompute数仓的数据源)不可避免会出现数据库扩容或者DDL变更,这些变更都要主动通知到离线开发人员。基于MaxCompute的数据仓库在进行离线数据抽取时,通过DataWorks的数据集成工具,...
    文章 2019-04-11 2831浏览量
  • Serverless弹性伸缩的现状调研

    HPA的特性使得部署在HPA伸缩对象上的服务具有非常灵活的自适应能力,当面对某个系统指标的突增时能够在一定限定范围内快速复制多个副本,也可以在指标持续走低的情形下通过删除副本以腾出资源,从而保障了整个系统的...
    文章 2020-12-17 618浏览量
  • 《精通SNMP》——第1章 SNMP基础1.1 网络管理和SNMP

    网络管理,最直接的原因是组成网络的硬件设备会损坏,通信线路会出现中断故障,过多的网络用户会争用有限的网络资源(线路带宽、设备CPU处理能力等)。现代的网络管理,已不仅仅是维护网络的正常运行,还需要收集、...
    文章 2017-05-02 1794浏览量
  • 首度公开!OceanBase存储系统架构的演进历程及工程...

    在存储层引入了数据编码,通过字典、RLE、Const、差值、列间等值、列间前缀等算法进一步压缩存储空间的占用,并且对于数据的编码是自适应的,根据数据特征来自动选择合适的编码算法。在易用性方面,我们支持了...
    文章 2019-11-25 2969浏览量
  • 分布式主动感知在智能运维中的实践

    但这样处理,下次可能还会出现同样的问题。如果将故障放到ITSM部分进行分析,就能让问题得到更根本的解决。发现故障后,通过请求管理把这件事告诉后台人员,后台人员看到请求后将故障升级为“事件”并提交给研发人员...
    文章 2019-07-09 2303浏览量
  • 独家|一文读懂优化算法

    自学习和自适应能力:BP神经网络在训练时,能够通过学习自动提取输出、输出数据间的“合理规则”,并自适应的将学习内容记忆于网络的权值中。即BP神经网络具有高度自学习和自适应的能力。泛化能力:所谓泛化能力是指...
    文章 2017-10-10 2269浏览量
  • 浅谈分布式存储系统Pangu2.0——它让双11运维变得智能...

    我们此前的调度是全局调度,它存在一定的缺陷:如果一台机器出现宕机,那么这台机器上承载的全部I/O流都会受到影响,甚至在极端情况影响所有的用户。而如今,我们进行了一个分组关联,将部分用户和某个存储节点...
    文章 2017-12-15 5163浏览量
  • 崔力强:Dev无感Ops,如何做到高效软件交付

    并且根据不同技术栈提供了自适应的构建缓存策略,避免依赖的重复下载,大大节约构建时间,提高开发过程效率。开发在使用云效只需要选择他的技术栈和构建命令,其他都可以交给平台自动化完成。云效目前支持阿里云容器...
    文章 2018-06-01 3232浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    大家知道 K8s 社区只能够支撑五千个节点,当超过这个规模时,会出现各种性能瓶颈问题,比如:etcd 出现大量的读写延迟。kube-apiserver 查询 pods/nodes 延时很高,甚至导致 etcd oom。控制器无法及时感知数据变化,...
    文章 2021-05-17 724浏览量
  • 【云开发小课】云原生体系下Serverless弹性探索与实践

    可伸缩性是指底层资源可以按照上层指标变化而具有一定的自适应能力。相当于IaaS可以随着流量的增加而相应的增加&xff0c;反之亦然。故障容忍性是指通过弹性自愈来保证服务和实例处于持续健康的状态&xff0c;以保持整体的...
    文章 2021-10-18 109浏览量
  • 规划一个智能工厂应避免的十个坑

    除了六轴的工业机器人之外,还应该考虑SCARA机器人和并联机器人的应用,而协作机器人则将会出现在生产线上,配合工人提高作业效率。7、智能产线规划 智能产线是智能工厂规划的核心环节,企业需要根据生产线要生产的...
    文章 2019-04-19 2247浏览量
  • HBase设计的实践经验(全)——《我的Java打怪日记》

    二、读放大、写放大、故障恢复(10)什么时候触发读合并?上一篇说了,当我们读取数据时,首先是定位,从 Meta table 获取 rowkey 属于哪个 Region Server 管理,而Region Server又有读缓存、写缓存、HFILE因此...
    文章 2021-07-27 43073浏览量
  • DockOne微信分享(一三四):国内某大型酒店管理集团...

    所有的应用均会出现故障。这是在系统架构上不是一个好的设计。反而造成了应用和NFS服务强耦合。所以我们建议的方式是,将配置文件与项目的war包jar分离开,通过jenkins实现使用不同环境的配置文件编译不同的镜像。...
    文章 2017-10-11 1057浏览量
  • Docker监控技术原理和阿里云容器监控服务实践

    当然这个前提是集群需要位于云上,如果集群不是位于云上,那么一种做法是就提前买一批机器,另一种方式就是采用混合云的方式,将一些往往会出现访问量高峰的无状态应用部署在云上面,进行动态扩容,当访问量变小时,...
    文章 2017-01-05 8352浏览量
  • 干货|数字金融时代的云原生架构转型的关键挑战和应对...

    现在来看这些理念是非常先进的,但在那个年代对于大多数还在理解什么是云计算的企业客户来说,过多的代码框架侵入性和研发运维架构模式的转变,为整体架构迁移至PaaS带来了非常高的壁垒,最后就如同大家所看到的一样...
    文章 2018-06-19 4186浏览量
  • 磁盘 IO 和网络 IO 该如何评估、监控、性能定位和优化...

    那么为什么会出现这种情况呢?一个物理机上CPU资源是有限的(本环境中是3颗),即使只有一个LPAR,其上面的N个进程也会去轮流使用CPU,何况此时是M台LPAR,MN个进程去轮流使用这三个CPU,当然调度算法并不是这么简单...
    文章 2018-09-11 3966浏览量
  • 妈妈帮上云之路:云上平台架构与运维实践

    昕晖谈到针对于目前有可能用户还会需要一些阿里云还没有的产品的情况,作为业务架构师一般会给出两种建议:一种方式就是建议用户在阿里云的ECS上部署自己开发的产品,另外一种方式就是阿里云会结合市场分析判断这样...
    文章 2017-02-27 4995浏览量
  • 王者荣耀背后的实时大数据平台用了什么黑科技?

    其实这种方式在很早期的时候是没有问题的,那为什么说现在不适应了?主要还是流程太长了。我们现在对游戏运营的要求非常高,比如说我们接入数据挖掘的能力,大数据实时计算完成之后,我们还要把实时的用户画像,离...
    文章 2020-09-21 9948浏览量
  • 云原生已来,只是分布不均

    选择上云托管”,将底层系统的复杂度交给云厂商,让云提供保姆式服务,最终演变为无基础架构设计,通过 YAML 或 JSON 声明式代码,编排底层基础设施,中间件等资源,即应用要什么,云给我什么,企业最终走向开放、...
    文章 2020-06-17 571浏览量
  • 阿里巴巴1682亿背后的“企业级”高效持续交付

    并且根据不同技术栈提供了自适应的构建缓存策略,避免依赖的重复下载,大大节约构建时间,提高开发过程效率。开发在使用云效只需要选择他的技术栈和构建命令,其他都可以交给平台自动化完成。全网部署能力 再看下...
    文章 2017-12-26 3417浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化