• 对系统故障处理的思考

    其实很简单,就是想说明,任何故障都是有原因的,都是有表面现象的,说没有任何现象那是扯蛋,而且这一类的信息系统也就那么几类故障,绝对不会发生像动车追尾的事故,所以在发生故障时,观察现象是很重要的,对于...
    文章 2017-11-14 955浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统和故障数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4805浏览量
  • 一个复杂系统的拆分改造实践

    经历过这个事情后,我们马上设想出现脏数据的各种场景,然后上线了三个清理数据的job,以防其它不可预知的产生脏数据故障场景,以后只要遇到出现脏数据故障,直接触发这三个清理job,先恢复再排查。...
    文章 2017-01-04 7789浏览量
  • DAS 解决延时突高的案例分享

    Tomcat 数据源会在后台定时启一个线程清理 idle 的连接,将 idle 的连接数降到 minIdle。在设置成 0 之后,相当于连接池会被清空,于是后续第一个连接就需要建立真正的物理数据库连接,导致耗时飙高。在这个案例中,...
    文章 2020-03-27 701浏览量
  • DBA很忙—MySQL的性能优化及自动化运维实践

    第十一点是自动化数据清理,因为数据库每天每周都在备份,我们就需要机制定期清理备份文件。我们也是采用脚本去开发和定时看,如果超过两个月的备份文件我们就把它删掉。如果文件都在两个月就不用管他。超过两个月就...
    文章 2018-11-16 4354浏览量
  • Linux运维(数据库专题)面试题

    如果数据库系统 运行中发生故障,有些事务尚未完成就被迫中断,这些未完成事务对数据库所做的修改有一部分已写入物理数据库,这时数据库就处于一种不正确的状态,或者说是 不一致的状态。隔离性:一个事务的执行不能...
    文章 2017-11-28 2174浏览量
  • 年关将至,服务器被入侵了怎么办

    自行发现:根据服务器的异常或故障判断,比如对外发送大规模流量或者系统负载异常高等,这种情况一般是运维工程师发现并核实的。二、现场保护(运维) 我们很多人看过大陆的电视剧《重案六组》,每次接到刑事案件,...
    文章 2017-05-15 2068浏览量
  • FAQ宝典之Rancher Server

    如果对你来说这些表没有被及时清理,请使用API来更新清理数据的时间间隔。在默认情况下,产生在2周以前的container_event和service_event表中的数据数据会被删除。在API中的设置是以秒为单位的(1209600)。API中的...
    文章 2017-11-12 1702浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    最终达到精准衡量线上生产环境的能力,当然,对于压测流水数据由于已经隔离开,所以可以方便安全的清理和维护。业务监控 面对复杂的应用环境和高速增长的业务,ARMS 能帮助用户快速构建各种环境下完整的监控体系,...
    文章 2020-02-18 5199浏览量
  • 阿里集团搜索中台TisPlus

    运维人员才能参与处理线上问题,遇到核心业务事后亡羊补牢式的处理,但已经不能改变背P级故障的厄运,也许故障reivew过后发现是业务方查询使用不当或者数据量、查询量的预估不合理,最终故障单并不是...
    文章 2018-01-26 7057浏览量
  • 一步一步理解Java 企业级应用的可扩展性

    不是说这一定会发生,但数据库确实可能因为应用而过载,而后逐渐延时(例如在故障转移时)。设想一 下,从数据库中再现整个用户会话状态以便用在另一个集群实例中,不仅耗费大量时间,还会影响峰值负载下的终端用户...
    文章 2017-07-03 1190浏览量
  • 企业级数据库新型研发模式——数据管理DMS实践

    此外,可能还会有其他的问题,比如业务同学说表的主键是int类型,而因为数据量急速增长,马上就要超出int类型所能表示的范围了,再跑就查不到数据了,业务就会出现故障,此时该怎么办?对于这样数据量又大,流量又...
    文章 2019-08-15 2268浏览量
  • 【中亦安图】运维无小事之一次导致数据丢失的小变更...

    某电信运营商文件系统满,维护人员清理了在线日志文件导致数据库无法启动… >gt;某电信IDC机房掉电,Oracle数据库损坏无法启动… >gt;某基金客户将数据库用户误删除drop user xx cascade…. …… 小y从...
    文章 2016-04-18 1089浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    最终达到精准衡量线上生产环境的能力,当然,对于压测流水数据由于已经隔离开,所以可以方便安全的清理和维护。业务监控 面对复杂的应用环境和高速增长的业务,ARMS 能帮助用户快速构建各种环境下完整的监控体系,...
    文章 2020-02-18 4611浏览量
  • 拉里·埃里森与甲骨文的凌“云”壮志:2016年的甲骨文...

    维持运转的唯一方法是确保设备从不发生故障,但这是不可能的。或者当故障发生时,确保不会产生影响,不会中断服务器的运行。我们把这种情况称为“容错能力”(fault-tolerant)。我们允许故障发生,但出现冗余或故障...
    文章 2017-07-03 1297浏览量
  • zookeeper集群搭建

    如果我们每台机器里都备有一份域名到IP地址的映射,这个倒是能解决一部分问题,但是如果域名对应的IP发生变化了又该怎么办呢?于是我们有了DNS这个东西。我们只需要访问一个大家熟知的(known)的点,它就会告诉你这个...
    文章 2017-11-26 663浏览量
  • 一步一步理解Java 企业级应用的可扩展性

    不是说这一定会发生,但数据库确实可能因为应用而过载,而后逐渐延时(例如在故障转移时)。设想一 下,从数据库中再现整个用户会话状态以便用在另一个集群实例中,不仅耗费大量时间,还会影响峰值负载下的终端用户...
    文章 2017-08-01 1171浏览量
  • zookeeper集群搭建

    如果我们每台机器里都备有一份域名到IP地址的映射,这个倒是能解决一部分问题,但是如果域名对应的IP发生变化了又该怎么办呢?于是我们有了DNS这个东西。我们只需要访问一个大家熟知的(known)的点,它就会告诉你这个...
    文章 2016-09-13 894浏览量
  • 最全技术面试180题:阿里11面试+网易+百度+美团!

    故障切换:在出现数据故障时,因为支持多点写入,切的非常容易。热插拔:在服务期间,如果数据库挂了,只要监控程序发现的够快,不可服务时间就会非常少。在节点故障期间,节点本身对集群的影响非常小。自动节点...
    文章 2018-11-05 1356浏览量
  • 进程缓存和缓存服务,如何抉择?

    写请求发生在server1&xff0c;在修改完自己缓存数据数据库中的数据之后&xff0c;给MQ生产数据变化通知&xff0c;server2和server1订阅MQ消息&xff0c;当消费到MQ信息的时候&xff0c;也修改缓存数据。3、有一种简单的方式&xff0...
    文章 2021-12-20 10浏览量
  • 最全技术面试180题:阿里11面试+网易+百度+美团!

    故障切换:在出现数据故障时,因为支持多点写入,切的非常容易。热插拔:在服务期间,如果数据库挂了,只要监控程序发现的够快,不可服务时间就会非常少。在节点故障期间,节点本身对集群的影响非常小。自动节点...
    文章 2018-11-05 1159浏览量
  • ElasticSearch学习笔记之原理介绍

    由于Elasticsearch 在把数据写入到内存 buffer 的同时,其实还另外记录了一个 translog日志,如果在这期间故障发生时,Elasticsearch会从commit位置开始,恢复整个translog文件中的记录,保证数据的一致性。...
    文章 2018-08-23 3618浏览量
  • 最全技术面试180题:阿里11面试+网易+百度+美团!...

    故障切换:在出现数据故障时,因为支持多点写入,切的非常容易。热插拔:在服务期间,如果数据库挂了,只要监控程序发现的够快,不可服务时间就会非常少。在节点故障期间,节点本身对集群的影响非常小。自动节点...
    文章 2018-10-10 1372浏览量
  • oracle日常维护(不断更新)

    由于事前发生过别的表空间(cookdbs:/u01/app/oradata/unicom/cokdbs.dbf)也有坏块的情况,根据李智他们的建议,使用迁移数据后删除表空间的办法解决(仅适用于普通表空间)。这是查询该表空间上的表和索引对象的...
    文章 2017-11-16 1438浏览量
  • 一步一步理解 Java 企业级应用的可扩展性

    不是说这一定会发生,但数据库确实可能因为应用而过载,而后逐渐延时(例如在故障转移时)。设想一下,从数据库中再现整个用户会话状态以便用在另一个集群实例中,不仅耗费大量时间,还会影响峰值负载下的终端用户...
    文章 2016-01-13 1844浏览量
  • 自动化测试—业务线仿真回归流程剖析

    前文提到数据的时效性,部分作业会在结果报表产生后立即就对源头数据进行清理或合并,这导致我们拷贝来用于做业务回归的数据不完整。此外,大部分源头数据在3天或一周后都会进行删除合并操作以提高空间使用效率,而...
    文章 2017-07-03 1330浏览量
  • Redis面试题汇总

    定时去清理过期的缓存&xff1b;当有用户请求过来时&xff0c;再判断这个请求所用到的缓存是否过期&xff0c;过期的话就去底层系统得到新数据并更新缓存。两者各有优劣&xff0c;第一种的缺点是维护大量缓存的key是比较麻烦的&...
    文章 2021-12-01 16浏览量
  • 救火必备!问题排查与系统优化手册

    吞吐率(Throughput):系统单位时间内能处理的工作负载,例如:在线 Web 系统-QPS/TPS,离线数据分析系统-每秒处理的数据量。响应时间(Response Time):以 Web 请求处理为例,响应时间(RT)即请求从发出到收到的...
    文章 2020-07-13 2304浏览量
  • 轻松解决电脑死机故障攻略_软件

    (1)程序或游戏光盘有问题,自己机器的光驱读盘性能差,在数据拷贝过程中数据错误率太高,导致软件的安装不完整而无法正常启动而死机;(2)特定的程序或游戏在运行时需要主机的硬件资源不符合要求,显示器的颜色或分辨...
    文章 2017-11-07 1060浏览量
  • 穆客带你快速定位Node.js内存泄露

    碰到内存泄露的问题该怎么办呢?目前的整体思路主要有两种:一种是重启,将整个服务进行重启,这种方式虽然暴力,但是可以解决问题。当业务量较少或者代码与状态无关时,重启带来的影响不大;但如果业务比较复杂的话...
    文章 2016-07-29 5628浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化