• Redis故障案例(一)-特定key批量丢失

    TroubleShooting-排障是DBA一项重要技能,通过故障表现的症状,先让业务快速恢复止损,同时分析故障的根因(rootCause),给出解决方案并从根本上修复故障,最后总结从产品或流程上怎么规避同类型故障再次发生。...
    文章 2017-11-21 5812浏览量
  • Session引起的备份失效处理

    登录ERP系统检查了计划和任务列表,发现设定的备份任务在故障期间均有运行,所以排除了计划任务失败的原因。C.备份脚本本身已经固化,从部署之初就没有进行过调整,检查脚本后也未发现任何异常。感觉毫无头绪的时候...
    文章 2017-11-26 891浏览量
  • SQLServer 2012异常问题(一)-故障转移群集+镜像环境...

    生产数据库是从SQLSERVER 2008R2迁移到2012的,迁移过程很顺利,按照一般经验,可能导致数据库所有者丢失,因此在迁移后手动修改数据库所有者为sa,与此同时还有个job在做这个库的归档(定期清理历史数据到本地的...
    文章 2015-02-12 881浏览量
  • 《IT运维之道》——3.4 落实整体运维

    如:针对信息系统服务器上部署的操作系统(如Windows、AIX、LINUX、HP)、数据库(如DB2、Oracle、SQL Server)、...故障排除、系统软件升级、定期巡检、数据库性能调优、系统与中间件部署、系统软件维护培训等运维服务...
    文章 2017-05-02 1788浏览量
  • 《IT运维之道》一3.4 落实整体运维

    如:针对信息系统服务器上部署的操作系统(如Windows、AIX、LINUX、HP)、数据库(如DB2、Oracle、SQL Server)、...故障排除、系统软件升级、定期巡检、数据库性能调优、系统与中间件部署、系统软件维护培训等运维服务...
    文章 2017-05-02 1590浏览量
  • 运维注意事项及案例讲解(个人心得)

    针对故障排除方面,遵循以下思路,一般故障出现之后,在alter日志中都有记录,根据alter日志中的错误号和提示信息,来判定数据库出现的错误是什么,定位错误环节:数据库整体环节(如:redo、archivelog、undo表...
    文章 2014-12-10 1436浏览量
  • 快来看看谁更污!IT行业最“脏”的职位排行榜

    只要为公司的网络添加一只Bomgar Box设备,世界上任何地方的远程技术人员就能访问最终用户的PC,帮助排除故障。企业间谍工程师 这个职业需要熟悉黑客活动、恶意软件和做假,擅长撒谎、欺骗、偷窃、破坏和潜入以便对...
    文章 2017-07-03 743浏览量
  • DBA在传统企业数据库安全建设上能做些什么?

    清理和锁定无用的数据库帐号。进了一个新环境,核心库账户是必查项。将未被锁定的帐号列出来和开发进行确认,每个用户都找到具体作用和应用。如账户无人认领,则通过DBA_HIST_ACTIVE_SESS_HISTORY 配合dba_users 把...
    文章 2017-05-17 1999浏览量
  • 衡量数据中心好坏标准的隐性指标

    我们经常使用RTO、RPO这些指标来评价一个数据中心对故障的处理和恢复能力,而很多时候,业务没有发生中断,而是访问体验性非常差,性能下降。其实性能下降几乎与服务中断一样重要,性能下降指标会告诉你问题有多大,...
    文章 2017-08-02 1405浏览量
  • 衡量数据中心好坏标准的隐性指标

    我们经常使用RTO、RPO这些指标来评价一个数据中心对故障的处理和恢复能力,而很多时候,业务没有发生中断,而是访问体验性非常差,性能下降。其实性能下降几乎与服务中断一样重要,性能下降指标会告诉你问题有多大,...
    文章 2017-08-15 1566浏览量
  • 存储-盘古,阿里云飞天分布式存储系统设计深度解析

    误操作:误删数据、拔错磁盘、没有清理测试机器环境上线…… 盘古面临的问题和挑战 从上图可以看到,作为统一存储,要支持虚拟机中的块存储,对象存储,表格存储,文件存储,离线大数据处理,大数据分析等诸多业务,...
    文章 2017-07-19 6485浏览量
  • Design7:数据删除设计

    只需要到History表找到相应的数据,将其重新插入到Prodcut 表中,并且,History 表中不仅可以存储用户删除操作的历史记录,而且可以存储用户更新的历史记录,对于系统的维护,解决用户纠纷和故障排除,十分有帮助。...
    文章 2016-09-16 859浏览量
  • 盘古:阿里云飞天分布式存储系统设计深度解析

    误操作:误删数据、拔错磁盘、没有清理测试机器环境上线…… 盘古面临的问题和挑战 从上图可以看到,作为统一存储,要支持虚拟机中的块存储,对象存储,表格存储,文件存储,离线大数据处理,大数据分析等诸多业务,...
    文章 2016-11-17 38527浏览量
  • OSS服务监控、诊断和故障排除

    另外,对于有效请求率低于100%的情况,用户需要根据自己的使用情况进行分析,可以通过请求分布统计或者请求状态详情确定错误请求的具体类型,跟踪诊断确定原因,并故障排除。当然,对于一些业务场景,出现有效请求率...
    文章 2016-05-19 29663浏览量
  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    面向服务的设计模式,最终需要总线集成服务,而且大部分时候还共享数据库,出现单点故障时会导致总线层面的故障,更进一步可能会把数据库拖垮,所以才有了更加独立的设计方案的出现。MSA 微服务架构 微服务是真正...
    文章 2019-10-16 6301浏览量
  • Oracle数据库日常维护

    排除数据库以外的原因后,再对发生坏块的数据库对象进行处理。1.确定发生坏块的数据库对象 SELECT tablespace_name,segment_type,owner,segment_name FROM dba_extentsWHERE file_id=lt;AFN>AND<BLOCK>...
    文章 2017-11-26 1229浏览量
  • 墨菲定律:一个参数Drop_caches导致集群数据库实例...

    直接搜索 Oracle MOS,看上去有点类似这个 bug,不过很容易就可以排除。Bug 14193240:LMS SIGNALED ORA-600[KGHLKREM1]DURING BEEHIVE LOAD 从日志看,2:03分就开始报错,然而直到 lmd0 报错时,实例才被终止掉,也...
    文章 2017-07-17 7942浏览量
  • Gitlab 官方对整个数据删除事件的详细说明

    然后,我们开始了解发生了什么问题进行故障排除,以及如何防范。在2017/01/31 21:00 UTC,问题被升级导致在数据库上的写入锁定,这导致网站出现了一些时间段的宕机。措施: 根据IP地址阻止了垃圾邮件发送者 删除了...
    文章 2017-07-03 2226浏览量
  • 日常事件日志监控工具推荐

    一款合适的,用来进行Windows服务器故障排除和维护的工具是非常有价值的。这里是一些可供选择的日志文件监控工具,但由于产品规模不尽相同,这里仅作参考。免费与付费日志监控工具 免费低端产品,可以订阅微软的...
    文章 2017-08-01 1108浏览量
  • 监控设备的维护方法都有哪些

    2)根据监控系统各部份设备的使用说明,每月检测其各项技术参数及监控系统传输线路质量,处理故障隐患,协助监控主管设定使用级别等各种数据,确保各部份设备各项功能良好,能够正常运行。3)对容易老化的监控设备部件...
    文章 2017-07-05 1299浏览量
  • 如何将bug杀死在摇篮里?

    关于测试评价,目前也没有特别好的评价体系,所以最常用的还是代码覆盖率,在工程的pom.xml中引入cobertura,排除不需要计入的第三方class,RDC单测实验室中的代码覆盖率工具会自动统计覆盖率。目前RDC的行覆盖率在...
    文章 2017-06-29 2367浏览量
  • 软件质量没有银弹:阿里巴巴的25个技术实践与坑

    关于测试评价,目前也没有特别好的评价体系,所以最常用的还是代码覆盖率,在工程的pom.xml中引入cobertura,排除不需要计入的第三方class,RDC单测实验室中的代码覆盖率工具会自动统计覆盖率。目前RDC的行覆盖率在...
    文章 2017-06-27 11347浏览量
  • 一文助你解决90%的自然语言处理问题(附代码)

    故障排除(客户请求,支持票据,聊天记录) 社交媒体中出现的灾难」数据集 本文我们将使用由 CrowdFlower 提供的一个名为「社交媒体中出现的灾难」的数据集,其中: 编者查看了超过 1 万条推文,其中包括「着火」、...
    文章 2018-02-05 7491浏览量
  • 出了Linux故障找不到方法?看大牛简单、朴实的解决...

    解析:出现这个问题的原因有很多种,可能是文件系统数据块出现不一致导致的,也可能是磁盘故障造成的,主流ext3/ext4文件系统都有很强的自我修复机制,对于简单的错误,文件系统一般都可以自行修复,当遇到致命错误...
    文章 2017-08-08 1599浏览量
  • 升级Kubernetes 1.18前,你不得不知的9件事

    使用Kubectl调试为用户提供更多故障排除功能作为Kubernetes用户,当你需要查看正在运行的Pod时,你将受到kubectl exec和kubectl port-forward的限制。而在Kubernetes 1.18中,你还可以使用kubectl debug命令。该命令...
    文章 2020-03-27 622浏览量
  • SSISDB2:SSIS工程的操作实例

    消息的记录是由事件触发时的,在触发事件时,SSIS引擎会记录事件产生的消息和事件的上下文,通过操作实例的消息,能够监控操作实例的运行情况,对已发生的错误进行故障排除。在实际的项目开发过程中,通常使用SQL ...
    文章 2015-09-16 579浏览量
  • 《日志管理与分析权威指南》一导读

    第1章1.1 概述1.2 日志数据基础1.2.1 什么是日志数据1.2.2 日志数据是如何传输和收集的1.2.3 什么是日志消息1.2.4 日志生态系统1.3 看看接下来的事情1.4 被低估的日志1.5 日志会很有用1.5.1 资源管理1.5.2...
    文章 2017-07-03 2399浏览量
  • 阿里集团搜索中台TisPlus

    运维人员才能参与处理线上问题,遇到核心业务事后亡羊补牢式的处理,但已经不能改变背P级故障的厄运,也许故障reivew过后发现是业务方查询使用不当或者数据量、查询量的预估不合理,最终故障单并不是...
    文章 2018-01-26 6843浏览量
  • 你不得不关注的 Elasticsearch Top X 关键指标

    这样可确保在发生故障事件期间&xff0c;必要的仲裁已到位&xff0c;可以在集群中选择新的主节点。你可以通过查看主节点的CPU/内存利用率和 JVM 内存使用百分比来确定主节点实例的配置。以下是&xff1a;cerebro 监控 截图。...
    文章 2021-11-10 10浏览量
  • Oracle OGG 配置参数释义

    定期清理dirdat路径下的本地队列&xff08;local trail&xff09;保留期限10天&xff0c;过期后自动删除。从而控制队列文件的目录不会增长过大。LAGREPORTHOURS 1 每隔一小时检查各进程延时情况&xff0c;并记录到 goldengate...
    文章 2017-01-11 1071浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化