• 阿里:千亿交易背后的0故障发布

    我们针对阿里的故障产生原因做了统计,其中很大一部分都是线上变更引起的,相信在座各位也遇到或者制造过故障,开发和运维的同学对故障都是很敬畏的。故障大家都遇到过,但是故障的影响差异比较大。有些故障可能...
    文章 2018-04-20 5064浏览量
  • 无人值守时代,运维如何保障发布质量?

    我们针对阿里的故障产生原因做了统计,其中很大一部分都是线上变更引起的,相信在座各位也遇到或者制造过故障,开发和运维的同学对故障都是很敬畏的。故障大家都遇到过,但是故障的影响差异比较大。有些故障可能...
    文章 2018-04-18 3693浏览量
  • 《R语言数据分析与挖掘实战》——第3章 数 据 探 索 3...

    使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。缺失值的处理,从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理三种情况,将在4.1.1节详细介绍...
    文章 2017-05-02 2305浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    建立统一的故障代码体系,构建设备的故障体系树,以方便问题诊断和故障分析。人力资源管理方面,需要信息化系统提供对于矩阵化组织的管理,实现专业化和综合化的岗位管理。提供在线学习平台和知识库平台来支持员工...
    文章 2019-11-08 1130浏览量
  • linux下网络排错与查看

    但如果累计的出错 情况数目占到所接收的IP数据报相当大的百分比,或者它的数目正迅速增加,那么你就应该使用Netstat查一查为什么会出现这些情况了。参数详解: a或-all 显示所有连线中的socket-n 已建立的有效链接-o...
    文章 2016-03-30 1017浏览量
  • AI赋能DevOps:数据驱动的全栈工程师实践

    那么通过这种钻取我们可以找到一系列的更加关联的信息,我们最终找到了信息足够多之后,我们要确定最终的一个答案,这个就是根因分析,帮我们确定故障的根本原因是什么。数据驱动和AI驱动的DevOps实践 1:搜索和上...
    文章 2019-11-04 9260浏览量
  • 如何检测 Web 服务请求丢失问题

    我们可以这样来解释这个问题,客户端流量进入 Web 服务器,如果 Web 服务器处理不过来(超出可承受的最大流量或者 Web 服务器本身可能出现 FullGC,OOM,死锁,线程池慢问题),那客户端设置超时的请求将会出现 499...
    文章 2019-09-16 1991浏览量
  • 《自动化测试最佳实践:来自全球的经典自动化测试案例...

    2.4.3 测试报告这个内部工具创建了网站来记录测试报告,所有的结果在一个数据库中也进行了详细存档,这有利于我们建立详细的度量,比如下面的度量:1)在哪些平台上有一些什么样的bug及其出现的频率(可以帮助...
    文章 2017-08-02 1147浏览量
  • 《智能数据时代:企业大数据战略与实战》一2.3 自我...

    执法状况数据仓库:执法畅通,犯罪数据统计,执法人员配置优化分析。Hadoop/IOT:威胁执法现状分析(信息来源于社交媒体和视频收集)。媒体和娱乐数据仓库:观看者偏好,频道收视率,广告销售额和营销促销的分析。...
    文章 2017-05-02 1154浏览量
  • 什么是脏数据?怎样用箱形图分析异常值?终于有人讲...

    使用简单的统计分析,可以得到含有缺失值的属性的个数以及每个属性的未缺失数、缺失数与缺失率等。对于缺失值的处理,从总体上来说分为删除存在缺失值的记录、对可能值进行插补和不处理3种情况。02 异常值分析 异常...
    文章 2020-05-29 1072浏览量
  • 深入解析:由SQL解析失败看开发与DBA的性能之争

    还有就是查询一些底层的视图比如 x$ksmsp 在某些版本下高并发的系统中直接查询这些视图会出现大量的 latch 竞争 还有就是 SGA 大量抖动或者模拟调整的时候也会导致此问题 ...
    文章 2017-06-14 978浏览量
  • 让科学的“可重复性流程”重回数据科学

    现在越来越多的数据版本化的工具出现了,下面对它们做简单的分析。不过你的团队应该制定一个数据版本化的计划,并严格执行。实现数据版本化之前的数据科学犹如Git之前的软件工程。Pachyderm是我非常了解的一个工具...
    文章 2017-05-22 1133浏览量
  • 深入探讨运维驱动的可监控性设计

    通过在验收测试环境或准发布环境中模拟错误的出现,例如网络故障、进程故障等,触发业务处理失败,查看相关监控点的输出有效性,确保业务类型、错误发生时间等关键信息得以保存、方便统计分析。对于某些检查验证,...
    文章 2017-05-02 1457浏览量
  • 常用的SQL跟踪事件类

    SQL Server包含了一个帮助跟踪计数器(SQL Server:SQL统计值:SQL重编译/秒),如果发现该计数器的值居高不下,就可以考虑使用这个事件类来进行性能分析,以便确定到底是哪个存储过程引起了故障。12.Stored ...
    文章 2017-11-15 932浏览量
  • 《模式识别原理及工程应用》——2.2 贝叶斯决策理论

    在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法。2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练...
    文章 2017-08-01 1339浏览量
  • 5W1H(六何分析法)全景洞察大数据

    在线实时数据清洗,一般是用sparkstreaming或者strom/jstorm直接处理实时流过来的数据,清洗完成,因为实时化,所以一般会接到在线的数据存储上,比如rds、mogodb、redis、hbase等。数据存储服务基本来讲,hadoop...
    文章 2016-06-30 9878浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-08-01 831浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-08-01 872浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-08-01 902浏览量
  • 时间准度对数据中心的重要性

    比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确...
    文章 2017-07-10 787浏览量
  • 5W1H(六何分析法)全景洞察大数据

    在线实时数据清洗,一般是用sparkstreaming或者strom/jstorm直接处理实时流过来的数据,清洗完成,因为实时化,所以一般会接到在线的数据存储上,比如rds、mogodb、redis、hbase等。数据存储服务 基本来讲,hadoop...
    文章 2018-11-05 2011浏览量
  • 当数据智能遇上工业制造

    可以看到涉及图片识别检测识别,项目结果如图所示,大家可以看到,我们的故障识别率现在能做到96%左右,一般故障是指不会引起事故的,现在漏检率已经很低了,为什么会引起事故性的故障,而引起事故的故障数据样本...
    文章 2017-04-17 4123浏览量
  • Redis监控技巧总结

    Redis Live是一个更通用的 Redis 监控方案,它的原理是定时在 Redis 上执行MONITOR命令,来获取当前 Redis 当前正在执行的命令,并通过统计分析,生成web页面的可视化分析报表。Redis Faina Redis Faina是由著名的...
    文章 2017-11-15 954浏览量
  • 当数据智能遇上工业制造

    可以看到涉及图片识别检测识别,项目结果如图所示,大家可以看到,我们的故障识别率现在能做到96%左右,一般故障是指不会引起事故的,现在漏检率已经很低了,为什么会引起事故性的故障,而引起事故的故障数据样本...
    文章 2019-09-18 1074浏览量
  • 《软件测试价值提升之路》——3.4 随机出错

    对用户量大的产品,如果随机出错比较严重(比如每周都出现一两次),组织代码质量改进的专项工作,采用的方法一般是利用工具进行静态检查,加上人工的代码审查。代码静态检查可选的工具比较多,但代码审查就没有...
    文章 2017-05-02 1402浏览量
  • Linux 问题故障定位,看这一篇就够了

    如果线上程序出现了内存泄漏,并且只在特定的场景才会出现。这个时候我们怎么办呢?有什么好的方式和工具能快速的发现代码的问题呢?同样内存级别火焰图帮你快速分析问题的根源。使用方式: sh ngx_on_memory.sh pid...
    文章 2018-11-14 2843浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    负责稳定性的同学应该对这种场景不陌生:系统在夜间或整点大促时会出现偶发性的接口超时,等到发现问题再去排查时,已经丢失了异常现场,并且难以复现,无法通过手动 jstack 来诊断。而目前开源的链路追踪实现一般...
    文章 2021-08-24 181浏览量
  • 自动化测试最佳实践 连载五

    1)在哪些平台上有一些什么样的bug及其出现的频率(可以帮助指定bug的优先级)。2)每个平台上的一般信息统计。3)测试中bug的检出率。4)测试的冗余。一个测试完成之后,自动发送一个包含测试结果的汇总邮件,...
    文章 2017-07-10 1590浏览量
  • 分布式调用跟踪与监控实战

    此外,状态信息也是值得关注的一点,如上图所示,如果在调用过程中发生错误,就会出现异常(图中红色区域所标注),通过点击状态码,用户可以查看错误的具体信息。鹰眼于2013年在阿里巴巴内部上线,目前支撑阿里集团...
    文章 2017-05-03 13242浏览量
  • 《软件测试价值提升之路》——3.2 正常使用中部分出错

    判断采取什么手段进行改进,需要依据对客户问题的分析,常用的分析方法是根因分析法(Root Cause Analysis,RCA),通过对缺陷根本原因的分析,找到需要解决的问题,进而确定合适的解决问题的突破点。为什么没有强调...
    文章 2017-05-02 1717浏览量
1 2 3 4 ... 13 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化