• 干货:调度算法的价值与阿里的应用实践

    我们把一些重要应用标记为P类、M类、或者PM类,通过限制每台机器上可以承载的P、M、PM类型应用实例的上限来保证在机器发生故障的时候(宕机、断网等),重要应用受到的影响最小。应用间反亲和约束 在上述两种约束...
    文章 2018-06-22 2774浏览量
  • 干货|全球调度算法大赛赛题解读

    我们把一些重要应用标记为P类、M类、或者PM类,通过限制每台机器上可以承载的P、M、PM类型应用实例的上限来保证在机器发生故障的时候(宕机、断网等),重要应用受到的影响最小。应用间反亲和约束 在上述两种约束...
    文章 2019-08-05 809浏览量
  • 独家解密:阿里是如何应对超大规模集群资源管理挑战的...

    我们把一些重要应用标记为P类、M类、或者PM类,通过限制每台机器上可以承载的P、M、PM类型应用实例的上限来保证在机器发生故障的时候(宕机、断网等),重要应用受到的影响最小。应用间反亲和约束 在上述两种约束...
    文章 2018-06-22 1899浏览量
  • linux集群之LVS入门和企业级实战

    SH:源地址hash,相同用户的请求(ip)都使用相同的realserver进行响应,避免了选择不同realserver造成的访问内容的不同(用户cache信息),缺点是当访问的realserver宕机,会造成信息丢失。 DH:目标地址HASH,...
    文章 2017-10-30 1119浏览量
  • 扶凯:海量视频和用户时代的CDN

    在此模型下所有用户必须先请求调度才可得到目标地址,而这种动态请求需要中心中央服务器实时处理,无法在边缘对其进行配置,并且服务器的机位与处理能力有限,如果有攻击,和高并发流量,极易造成调度宕机。...
    文章 2018-08-24 1388浏览量
  • 高德算法工程一体化实践和思考

    如果简单的把这些扔给算法同学,就仅是工作量的转移,并且还可能引起整个业务的宕机风险。因此,质量保障体系建设就变成了重要的一环。质量保障体系建设很多人会认为,要做质量保障,就是提交到测试人员进行测试或...
    文章 2020-02-27 1128浏览量
  • 阿里基础设施的智能监控

    此外同一个安全域内不同采集域可以互相指定为备份采集域,如果某个采集域内的所有采集机都宕机,那么备份采集域的采集机会承担宕机的采集域所承担设备的采集任务,这个称之为跨采集域容灾。Syslog和AAA日志采集是由...
    文章 2019-07-30 1322浏览量
  • 饿了么:云端调度,饭来张口

    饿了么是数据驱动、智能算法调度的自动化生活服务平台,通过O2O数据的在线实时分析,与阿里云人工智能团队不断改进算法,以“全局最优”取代“局部最优”,保证平台上所有餐饮商户都能享受到数据智能的科技红利。...
    文章 2017-03-28 4002浏览量
  • 揭秘|连续3年支撑双11,阿里云神龙如何扛住全球流量...

    本文将为大家揭秘今年双11最具挑战的搜索广告、金融级业务核心交易数据库如何迁移至第三代神龙架构,详解神龙架构如何支撑阿里巴巴最大规模云原生实践落地,以及神龙架构如何通过宕机演练大考、备战双11的背后故事。...
    文章 2020-12-11 673浏览量
  • 走近伏羲,谈5000节点集群调度与性能优化

    从伏羲Master的角度,在故障恢复时刚刚读取的Checkpoint内容在Nuwa服务器端是不会发生改变的,因此读取Checkpoint后没有必要回写到服务器端,只需要通知本地的Nuwa Agent让其代理即可,Agent会负责服务器宕机重启时...
    文章 2016-12-18 4371浏览量
  • 阿里云基础产品技术月刊 2019年2月

    通过Blink实时流计算平台,已经在Blink平台上完成了内存故障预测模型的搭建,并打通数据反馈路径并将预测宕机的相关结果回流到阿里云日志服务(SLS)的日志中。后续计划和ECS的调度系统打通,增加系统中宕机风险的...
    文章 2019-03-13 3030浏览量
  • 从搜索引擎到核心交易数据库,详解阿里云神龙如何支撑...

    本文将为大家揭秘双11最具挑战的搜索广告、金融级业务核心交易数据库如何迁移至第三代神龙架构,再详解神龙架构如何支撑阿里巴巴最大规模云原生实践落地,最后是神龙架构如何通过宕机演练大考、备战双11的背后故事。...
    文章 2020-12-01 2570浏览量
  • 天网智能化,打造最安全的智慧城市

    系统可启用集群工作模式进行高可用保护,保证单台节点设备宕机的情况下,迅速由其它节点设备接管它的工作。在宕机设备恢复正常后,可以自动加入集群并与其他节点进行负载分担,提高系统自保护能力,保证智能分析的...
    文章 2017-07-04 1000浏览量
  • 初识Nginx

    Nginx 支持的负载均衡调度算法方式如下:①weight 轮询(默认):接收到的请求按照顺序逐一分配到不同的后端服务器,即使在使用过程中,某一台后端服务器宕机,Nginx 会自动将该服务器剔除出队列,请求受理情况不会...
    文章 2020-04-30 836浏览量
  • 知乎技术分享:从单机到2000万QPS并发的Redis高性能...

    5)Sentinel 切换功能主要依赖 down-after-milliseconds 和 failover-timeout 两个参数,down-after-milliseconds 决定了 Sentinel 判断 Redis 节点宕机的超时,知乎使用 30000 作为阈值。而 failover-timeout 则...
    文章 2018-09-18 3018浏览量
  • RocketMQ高可用探究:消息存储技术

    RocketMQ是阿里开源的分布式消息中间件,跟其它中间件相比,RocketMQ的特点是纯JAVA实现、集群和HA实现相对简单、在发生宕机和其它故障时消息丢失率更低,具有良好的高可用架构及稳定性。其发展的迭代历史如下图所示...
    文章 2020-06-01 1430浏览量
  • 一文了解 Kubernetes

    scheduler 调度器,使用调度算法,把请求资源调度到某一个 Node 节点;controller 控制器,维护 K8s 资源对象;etcd 存储资源对象;Node节点 kubelet 在每一个 Node 节点都存在一份,在 Node 节点上的资源操作指令由...
    文章 2020-07-22 2461浏览量
  • hadoop集群管理系统搭建规划说明

    当主节点宕机后从节点代替主节点工作,正常状态是从节点和计算节点一样工作。这种架构设计保证数据完整性。首先我们保证每台计算节点上分别有一个DataNode节点和NodeManager节点。因为都是计算节点,真正干活的。在...
    文章 2019-01-04 1189浏览量
  • hadoop集群管理系统搭建规划说明

    当主节点宕机后从节点代替主节点工作,正常状态是从节点和计算节点一样工作。这种架构设计保证数据完整性。首先我们保证每台计算节点上分别有一个DataNode节点和NodeManager节点。因为都是计算节点,真正干活的。在...
    文章 2018-10-24 1534浏览量
  • 利用阿里云搭建WordPress网站 – 服务器横向扩展

    另外,跨可用区高可用的部署要注意“雪崩效应”,即两台ECS的负载都大于50%的情况下,当一台因故宕机后,另一台也会由于过载的原因宕机,导致高可用失效。因此,两台ECS高可用,平均负载不应超过50%;三台ECS高...
    文章 2019-10-08 3729浏览量
  • Nginx是什么?能干嘛?

    weight轮询(默认):接收到的请求按照顺序逐一分配到不同的后端服务器,即使在使用过程中,某一台后端服务器宕机,Nginx会自动将该服务器剔除出队列,请求受理情况不会受到任何影响。这种方式下,可以给不同的后端...
    文章 2020-06-22 967浏览量
  • 计算产品和技术3.2虚拟云服务器(san三)

    使得虚拟机的性能逼近物理机的性能&xff0c;是虚拟机技术发展的主要趋势。好的性能不单单要靠高性能的虚拟机&xff0c;也要靠高性能的 Guest OS。云服务提供商之间的性能竞争正在成为全栈的竞争&xff0c;而保持Guest OS 高...
    文章 2021-10-13 28浏览量
  • vmcore自动分析工具

    提取vmcore中宕机原因的特征,从而实现后续对大量的vmcore文件进行相似度分析,识别相同问题的vmcore的目标。3)考虑是否可以将机器学习引入到vmcore;将机器学习用于提取vmcore特征、训练vmcore特征匹配模型可能是...
    文章 2019-09-29 2595浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-02-05 2976浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-01-31 484浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-02-05 2155浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    告警生成后,进行宕机事实验证,如果出现问题了表明算法正确,如果没有出现问题则回到算法中进行更正。诊断决策树 此外,再给大家介绍一个例子:诊断决策树,这个例子很容易理解。诊断决策树有三个关键要素,首先是...
    文章 2020-10-28 3190浏览量
  • 【转载】低成本和高性能的MySQL云数据库的实现淘宝 ...

    上述过程中,宕机的主库再次上线会使用户感受到短时间的不可写,进一步的,proxy服务器端可以通过捕捉错误,延迟重试的方法屏蔽掉这个问题。读写分离 我们还实现了对用户透明的读写分离。当功能的开关打开时,proxy...
    文章 2016-05-11 3655浏览量
  • 17.5W秒级交易峰值下的混合云弹性架构之路

    期初主要出于提升效率,最大程度地降低实施成本,与保障集群稳定性的目的:更加智能,使用在线机器学习实时测算应用性能变化,并可作出简单的故障原因分析,通过算法对各个单元的应用集群进行自然水位拉平. 1.如何用...
    文章 2017-02-27 1897浏览量
  • 如何设计稳定性横跨全球的 Cron 服务

    anacron 是一个例外,它是 crontab 的一个补充,它尝试运行哪些因为服务器宕机而应该执行却没执行的任务。这仅限于每日或者更小执行频率的任务,但对于在工作站和笔记本电脑上运行维护工作非常有用。通过维护一个...
    文章 2017-06-05 1104浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化