• 对系统故障处理的思考

    5.通过查找上面时间点的系统故障日志,基本看到相关的错误信息的,如调用了那个数据库对象、返回了什么oracle的错误、写了什么java异常信息;如果没找到或者几百M的日志不好找,那只能模拟测试看故障能否再重现,...
    文章 2017-11-14 934浏览量
  • 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2674浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4694浏览量
  • Hbase原理解析

    当然这里有个意外:访问的region若果在RS上发生了改变,比如被balancer迁移到其他RS上了,这个时候,通过缓存的地址访问会出现异常,在出现异常的情况下,Client需要重新走一遍上面的流程来获取新的RS地址。...
    文章 2017-09-21 814浏览量
  • 《LoadRunner性能测试巧匠训练营》——1.4 性能测试...

    例如,在正常负载情况下,某些功能可以正常使用或者出错的概率比较低,但在压力测试下可能很快就会出现,帮助我们提早发现性能问题。小白想起,公司之前有个网站,在用户少的时候没有什么问题,但在用户多时就暴露出...
    文章 2017-07-03 998浏览量
  • 表格存储如何实现跨区域的容灾

    一条数据更新先写入commitlog进行持久化,然后再写入内存中的MemTable,MemTable定期的flush成一个新的数据文件,后台定期对不同的数据文件进行compaction,合并为一个更大的数据文件,并清理垃圾数据等。...
    文章 2017-11-08 6204浏览量
  • 面试时经常被问到的Redis问题,持久化,存储结构,...

    1:对查询结果为空的情况也进行缓存,缓存时间设置短一点,或者该key对应的数据insert了之后清理缓存。2:对一定不存在的key进行过滤。可以把所有的可能存在的key放到一个大的Bitmap中,查询时通过该bitmap过滤。...
    文章 2019-05-10 1217浏览量
  • 阿里云弹性计算研发团队如何从0到1自建SRE体系

    可参考以下思路:在设计阶段时定义该依赖的性质,是强依赖还是弱依赖对方提供的SLO/SLA是什么,依赖方可能会出现什么问题以及对我们服务的影响是什么?如果依赖方出现了预期/非预期的异常,我们的策略是什么?如何...
    文章 2021-06-08 606浏览量
  • Redis不懂,面试担心不过,一次性解决面试Redis题目...

    Redis是一个非常火的非关系型数据库,火到什么程度呢?只要是一个互联网公司都会使用到。Redis相关的问题可以说是面试必问的,下面我从个人当面试官的经验,总结几个必须要掌握的知识点。介绍:Redis 是一个开源的...
    文章 2018-09-20 1483浏览量
  • Linux运维(数据库专题)面试题

    未提交读(read uncommitted):会出现脏读、不可重复读和幻读。提交读(read committed):会出现不可重复读和幻读。重复读(repeatable read):会出现幻读。串行化(serializable):隔离级别最高,不允许出现脏读、不可...
    文章 2017-11-28 2108浏览量
  • DBA避坑宝典:Oracle运维中的那些事儿

    system表空间满,如果发现表空间满的情况,不要急于添加数据文件,倒底是应用不规范存放数据到了system表空间还是审计日志占用了大量空间,可以参考MOS得到一些专业指导,在有些版本直接清理审计日志可能有死锁。...
    文章 2017-05-02 2208浏览量
  • Socket 心跳包机制总结

    理论上说,这个连接是一直保持连接的,但是实际情况中,如果中间节点出现什么故障是难以知道的。更要命的是,有的节点(防火墙)自动把一定时间之内没有数据交互的连接给断掉。在这个时候,就需要我们的心跳包了,...
    文章 2014-02-12 1691浏览量
  • 《自动化测试最佳实践:来自全球的经典自动化测试案例...

    2.4.3 测试报告这个内部工具创建了网站来记录测试报告,所有的结果在一个数据库中也进行了详细存档,这有利于我们建立详细的度量,比如下面的度量:1)在哪些平台上有一些什么样的bug及其出现的频率(可以帮助...
    文章 2017-08-02 1152浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    数据不一致,将导致一些隐患,可能在未来引发某些确定性的故障。相比于黑盒探测面对的未知故障场景,定向巡检的目标是对集群的已知风险点做扫描。我们希望 KubeProbe 能够定期对整个集群/链路做定向的巡检,找出...
    文章 2021-04-25 2148浏览量
  • DBA很忙—MySQL的性能优化及自动化运维实践

    第十一点是自动化数据清理,因为数据库每天每周都在备份,我们就需要机制定期清理备份文件。我们也是采用脚本去开发和定时看,如果超过两个月的备份文件我们就把它删掉。如果文件都在两个月就不用管他。超过两个月就...
    文章 2018-11-16 4302浏览量
  • 关于Redis的常见面试题解析

    1:对查询结果为空的情况也进行缓存,缓存时间设置短一点,或者该key对应的数据insert了之后清理缓存。2:对一定不存在的key进行过滤。可以把所有的可能存在的key放到一个大的Bitmap中,查询时通过该bitmap过滤。...
    文章 2019-04-26 1312浏览量
  • 趣头条基于 Flink+ClickHouse 构建实时数据分析平台

    其中可能会出现小文件问题,小文件是后台程序进行定期 merge,如果 CheckPoint 间隔时间较短,如3分钟一次,会出现大量小文件问题。三、Flink-to-ClickHouse 秒级场景 1.秒级实现架构图 趣头条目前有很多实时指标,...
    文章 2020-04-02 3452浏览量
  • 关于Redis的几件小事|高并发和高可用

    ⑦如果slave node开启了AOF,那么立即执行BRREWRITEAOF,重新AOF、rdb生成、rdb通过网络拷贝、slave旧数据清理、slave aof rewrite,很耗费时间,如果复制的数据量在4G~6G之间,那么很可能全量复制时间消耗到1分...
    文章 2019-07-23 973浏览量
  • MySQL-高可用性:少宕机即高可用?

    归档并清理不需要的数据。为文件系统保留部分空闲空间;养成评估和管理系统的改变、状态和性能信息的习惯。3.2 降低平均恢复时间对于恢复时间,我们可以从三方面入手: 为系统建立冗余,保证系统的故障转移能力,...
    文章 2019-04-29 1087浏览量
  • 阿里云InfluxDB® Raft HybridStorage实现方案

    但如果真的发生单节点宕机太长,正常节点的日志文件已出现清理而不足故障节点追取数据时,我们将利用InfluxDB的backup和restore工具,将落后节点还原至被Raft日志涵盖的较新的状态,然后再做追取。在我们的场景下...
    文章 2019-07-09 14445浏览量
  • 如何健壮你的后端服务?

    什么会涨10倍,难道是接口被外人攻击了,以我的经验看一般内部人“作案”可能性更大。之前还见过有同学mapreduce job调用线上服务,分分钟把服务搞死。如何应对这种情况?生活给了我们答案:比如老式电闸都安装了...
    文章 2015-12-04 5488浏览量
  • 自动化测试最佳实践 连载五

    5)使用我们自己的数据库来收集统计数据,这样就可以在真实的产品环境中拥有自己的数据,并且有可能遇到在其他没有发现的故障(用你自己的方法来解决)。6)使测试场景不可能手动运行。7)使场景维持几天。8)使...
    文章 2017-07-10 1606浏览量
  • 阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军

    数仓中的数据是在对原有分散的数据数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、数据仓库是不可更新的。数据...
    文章 2020-05-14 802浏览量
  • 这可能是你见过最好的Redis主从复制原理

    每次当 slave 和 master 之间的连接断开时,slave 自动重连到 master 上,并且无论这期间 master 发生了什么,slave 都将尝试让自身成为 master 的精确副本。该系统的运行依靠三个重要机制: 当一个 master 实例和...
    文章 2020-09-06 2732浏览量
  • Redis经典面试题总结

    RDB 是间隔一段时间进行持久化,如果持久化之间 redis 发生故障发生数据丢失。所以这种方式更适合数据要求不严谨的时候) 2、AOF(Append-only file)持久化方式:是指所有的命令行记录以 redis 命令请 求协议的...
    文章 2020-09-26 4449浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重,即:2)节点流量节点流量由入口流量根据流量分支模型,按比例转化而来。...
    文章 2021-03-08 1788浏览量
  • 混合云容灾服务介绍

    什么是混合云容灾服务混合云容灾服务(Hybrid Disaster Recovery,简称 HDR)是一个为您的数据中心提供企业级应用的本地备份与云上容灾一体化的服务。混合云容灾服务解决的核心问题混合云容灾解决的两个核心问题是:...
    文章 2020-07-24 3212浏览量
  • 谈谈DB2的索引设计及优化

    如果索引没有出现在“TCB Index Stats”信息块中、或其中的Scans值及IxOnlyScns值相对同一表的其他索引的这两个值来说,要小很多数量级,则一般可以认为很少使用的,可以考虑删除。(注意:由于db2pd是直接读取内存...
    文章 2017-05-02 2047浏览量
  • 服务器故障排查的前五分钟[转]

    遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手: 一、尽可能搞清楚问题的前因后果 不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体...
    文章 2016-04-07 2071浏览量
  • Redis在新浪微博中的应用

    上升到一定规模后,可能会出现什么问题,是否能接受?google code上,国外论坛找材料(国内比国外技术水平滞后5年)观察作者个人的代码水平 Redis应用场景 1.业务使用方式 hash sets:关注列表,粉丝列表,双向关注列表...
    文章 2017-11-19 1590浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化