• 双11黑科技,阿里百万级服务器自动化运系统...

    用户如果调用API下发命令失败就会找过来让我们查原因,有的时候确实是系统的问题,但也有很多是本身的环境问题,比如机器宕机、SSH不通、负载高、磁盘满等等,百万级规模的服务器,每天百分之一的机器也有一万台,...
    文章 2017-12-01 12614浏览量
  • 双11黑科技,阿里百万级服务器自动化运系统...

    用户如果调用API下发命令失败就会找过来让我们查原因,有的时候确实是系统的问题,但也有很多是本身的环境问题,比如机器宕机、SSH不通、负载高、磁盘满等等,百万级规模的服务器,每天百分之一的机器也有一万台,...
    文章 2018-03-13 2577浏览量
  • RocketMQ在搜狐的创新实践

    NameServer 宕机预警服务器宕机预警服务器 cpu&xff0c;内存&xff0c;网络流量等指标预警要想做监控&xff0c;必须先做统计&xff0c;为了更好的知道 RocketMQ 集群的运行状况&xff0c;MQCloud 做了大量的统计工作&xff08;大部分...
    文章 2021-08-03 198浏览量
  • 阿里云基础产品技术月刊 2019年2月

    通过Blink实时流计算平台,已经在Blink平台上完成了内存故障预测模型的搭建,并打通数据反馈路径并将预测宕机的相关结果回流到阿里云日志服务(SLS)的日志中。后续计划和ECS的调度系统打通,增加系统中宕机风险的...
    文章 2019-03-13 3060浏览量
  • 《叶问》第1期

    性能下降5、数据库的高并发,数据库的读写压力过大,可能会导致数据库或系统宕机6、数据库(MySQL5.7以下)连接过高,会增加系统压力7、单表数据量大,如SQL使用不当,会导致io随机读写比例高。查询慢(大表上的B+...
    文章 2018-11-29 1427浏览量
  • Shard Allocation-Elastic Stack 实战手册

    将分片分布到不同的节点,一方面是为了提高系统的可用性,如当集群中一台机器宕机,使得该节点上的分片不可用时,分布在其他机器上的分片,能通过重新选举继续工作(但是仍要保证同一分片的主从副本不全在宕机节点上)...
    文章 2021-05-17 124浏览量
  • 数据和云

    Sentinel 切换功能主要依赖 down-after-milliseconds 和failover-timeout 两个参数,down-after-milliseconds 决定了Sentinel 判断 Redis 节点宕机的超时,知乎使用 30000 作为阈值。而 failover-timeout 则决定了两...
    文章 2018-10-11 1680浏览量
  • Kafka原理分析之基础篇

    消息由key和value的byte数组构成;xff08;3&xff09;key能够根据策略将消息发送到指定分区。批次&xff08;1&xff09;为了提升效率&xff0c;消息被分批写入kafka&xff0c;同一组消息必须属于同一主题的同一分区&xff1b;xff08;2&xff...
    文章 2022-01-13 10浏览量
  • RocketMQ高可用探究:消息存储技术

    RocketMQ是阿里开源的分布式消息中间件,跟其它中间件相比,RocketMQ的特点是纯JAVA实现、集群和HA实现相对简单、在发生宕机和其它故障时消息丢失率更低,具有良好的高可用架构及稳定性。其发展的迭代历史如下图所示...
    文章 2020-06-01 1444浏览量
  • 知乎技术分享:从单机到2000万QPS并发的Redis高性能...

    5)Sentinel 切换功能主要依赖 down-after-milliseconds 和 failover-timeout 两个参数,down-after-milliseconds 决定了 Sentinel 判断 Redis 节点宕机的超时,知乎使用 30000 作为阈值。而 failover-timeout 则...
    文章 2018-09-18 3031浏览量
  • 400+节点的 Elasticsearch 集群运

    不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。—— 摘录自使用真实查询在新ES集群平台上的第一次性能测试 为了控制查询执行过程,我们开发了一个插件,实现了一系列...
    文章 2019-04-18 1836浏览量
  • 400+节点的 Elasticsearch 集群运

    不幸的是,当集群宕机的时候,不到三分之一的查询能成功完成。我们相信测试本身导致了集群宕机。—— 摘录自使用真实查询在新ES集群平台上的第一次性能测试 为了控制查询执行过程,我们开发了一个插件,实现了一系列...
    文章 2019-03-12 1019浏览量
  • 没有宫廷内斗,数据库界的延禧攻略

    数据聚合●数据嵌套●数组结构 3.启动配置文件格式差异 MySQL 数据库的配置叫做 my.cnf,我们来看下它的记录方式;[client] port=3306 socket=data/mysql/mysql.sock [mysql] prompt="\u@db \R:\m:\s[\d]>no-...
    文章 2018-08-28 2257浏览量
  • Ansible权威指南.

    这里要特别感谢马哥Linux团队成员的薛定谔的章鱼、guli、以马内利、黄博文、coocla、云中鹤、stanley,这些朋友们历经月,辛勤翻译多达5万字文档。在一次和朋友聊天中,朋友问到你们Ansible已经应用这么久,同时也...
    文章 2017-05-02 6050浏览量
  • 阿里云acp考试题库介绍 阿里云ACP认证有没有用?

    而可以挂载的本地SSD盘可以任意添加b、系统盘为本地SSD盘的ECS实例不支持宕机迁移c、SSD云盘和本地SSD盘的数据安全性一样高d、SSD云盘和本地SSD盘的随机和顺序读写的IOPS都比普通云盘高13、单选题您在阿里云账号A下...
    文章 2021-12-23 53浏览量
  • 带你读《企业私有云建设指南》之二:企业云计算涉及的...

    高可用性即在硬件出问题时保证虚拟机的正常工作,当然如果真的出错了,则只能在不同的ESXi主机上启动虚拟机,这也可能造成服务的中断。FT(容错)的主要功能就是保证在出现故障时用户的应用不会出现中断。其原理就是...
    文章 2019-10-31 2935浏览量
  • HBase最佳实践-读性能优化策略

    数据本地率低的原因一般是因为Region迁移(自动balance开启、RegionServer宕机迁移、手动迁移等),因此一方面可以通过避免Region无故迁移来保持数据本地率,另一方面如果数据本地率很低,也可以通过执行major_...
    文章 2018-12-28 1673浏览量
  • ElasticSearch基本原理和分布式文件系统

    (5)3台机器下,9个shard(3 primary,6 replica),资源更少,但是容错性更好,最多容纳2台机器宕机,6个shard只能容纳0台机器宕机 (6)这里的这些知识点,你综合起来看,就是说,一方面告诉你扩容的原理,怎么扩...
    文章 2017-11-12 3953浏览量
  • MySQL Group Replication调研剖析

    (这个目前与savepoint冲突,这也是导致mysqldump无法备份GR实例的原因) 11.log slave updates必须打开。12.binlog的checksum目前不支持。13.由于事务写集合的干扰,无法使用savepoint。14.SERIALIZABLE 隔离级别...
    文章 2017-11-09 1682浏览量
  • Uber是如何使用MySQL设计可扩展性数据存储的?

    如果凌晨3点我们接到叫车请求,但是这时数据存储无法响应查询,导致业务宕机,我们是否有相关操作知识可以快速解决这个问题。鉴于以上种种,我们分析了几种常用的选择的优势和潜在的限制,比如Cassandra、Riak、...
    文章 2017-05-02 1874浏览量
  • 阿里云基础产品技术月刊 2019年3月

    针对AIOps场景,新增面向趋势预测、异常发现、智能聚类、根因分析(推导)等4个高频场景系列函数,从异常的识别、分析的过程到最后的原因定位均有涉及,通过这些功能,提升DevOps分析与诊断的效率,协助运人员进行...
    文章 2019-04-11 4488浏览量
  • 滴滴如何用八十万成为百亿美金公司?

    原因有三,在中国打车难,这是大众主流的刚性需求;国外有类似的模式,英国打车应用Hailo刚刚拿到了融资,方向貌似可行,但不能完全拷贝;移动互联网的到来,手机定位距离的属性变得越来越重要。最终决定创业后我...
    文章 2017-05-02 1374浏览量
  • 扫雷实用帖:HBase读延迟的12种优化套路

    数据本地率低的原因一般是因为Region迁移(自动balance开启、RegionServer宕机迁移、手动迁移等),因此一方面可以通过避免Region无故迁移来保持数据本地率,另一方面如果数据本地率很低,也可以通过执行major_...
    文章 2017-05-11 2050浏览量
  • 阿里10年:一个普通技术人的成长之路

    我接手后首先建设了一个资源生命周期管理系统,使所有新资源的申请全部经过系统,并且对已有资源发起盘点和认领,所有资源设置有效期,到期后可以续租或释放,系统还会定期巡检资源的使用情况,再配合宕机回收、闲置...
    文章 2020-12-09 10158浏览量
  • 阿里 10 年:一个普通技术人的成长之路

    我接手后首先建设了一个资源生命周期管理系统,使所有新资源的申请全部经过系统,并且对已有资源发起盘点和认领,所有资源设置有效期,到期后可以续租或释放,系统还会定期巡检资源的使用情况,再配合宕机回收、闲置...
    文章 2020-12-21 1188浏览量
  • ⭐Redis分布式——主从复制、Sentinel、集群彻底吃透...

    就是当主服务器宕机后&xff0c;某台从服务器被选举成为新的主服务器&xff0c;这种情况我们就通过比较运行ID来区分。运行ID&xff08;run id&xff09;是服务器启动时自动生成的40个随机的十六进制字符串&xff0c;主服务和从...
    文章 2021-12-11 13浏览量
  • 浅谈基于 OpenStack 和 k8s 建设云原生研发基础设施

    最终放弃 VMware 的原因,是因为其授权比较昂贵。目前选择的方案,以 KVM 为主。3.3、CentOS&UbuntuOpenStack 社区 对 Ubuntu 支持比较完善,Ubuntu 更新速度快,内核版本比较新,可以支持更高版本的KVM,对...
    文章 2021-12-16 57浏览量
  • 阿里云acp考试题库介绍 阿里云ACP认证有没有用?

    而可以挂载的本地SSD盘可以任意添加b、系统盘为本地SSD盘的ECS实例不支持宕机迁移c、SSD云盘和本地SSD盘的数据安全性一样高d、SSD云盘和本地SSD盘的随机和顺序读写的IOPS都比普通云盘高13、单选题您在阿里云账号A下...
    文章 2021-10-26 34浏览量
  • 浅谈分布式存储系统Pangu2.0——它让双11运变得智能...

    该过程中存在精准流控,能够反复权衡流量的使用,保证复制的同时前端用户的I/O依旧维持在可用度很高的状态,并采取并行复制的方法在半小时内完整恢复单台宕机的全部数据,从而尽可能的淡化影响。前文中,我们讲了...
    文章 2017-12-15 5231浏览量
  • DockOne微信分享(一四四):BizCloud:基于...

    另一方面,我们要支持服务一键自动部署(QA特别需要这样的功能),服务出现故障后,如系统宕机或服务挂掉后,服务能自动迁移,而且我们需要支持灰度发布,尽量实现运的自动化。商业平台系统的整体架构如下图所示。...
    文章 2017-10-10 2335浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化