• 关于

    质量监控流程故障原因

    的搜索结果
  • 根本原因分析 关键事件关联 IT运维有序发展——中国联通通讯集团

    ·案例背景    中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。 随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状...

    文章 技术小美 2017-11-09 1478浏览量

  • 深入探讨运维驱动的可监控性设计

    “外部质量验收驱动技术债务消除”的理念: 技术债务的形成往往是由于赶进度忽略了非功能质量特性而导致的,由于内部质量的不佳(设计或代码质量不高)导致外部质量的低下。 传统IT领域通常有上线前的验收测试,如果能够在验收测试过程中重点关注非功能需求的实现质量,则可以“由外而内”地驱动开发团队在开发过...

    文章 努力酱 2017-05-02 1383浏览量

  • 一目了然,看民生银行 IT 运维故障管理可视化案例

    一、前言 民生银行 IT 运维工作经历了多年实践,已经建设了CMDB、IT运维管理系统(流程平台)、集中监控系统、交易性能监控系统、自动化运维系统、日志管理平台等管理工具,并在实际工作中不断深入的优化,在近年还打造了运维大数据平台,用以支撑 IT 运维管理工作。 在日常工作中,监(各类监控)、管(...

    文章 技术小能手 2018-09-27 3173浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 我们雇佣了一只大猴子...

    Picture from Gremlin 我们“雇佣”了一只大猴子,只为“搞破坏”,不开玩笑。 这只猴子是用来做什么的? 从程序员的视角来看,提高系统稳定性的方法无外乎三种: 通过各种技术手段,例如在容器和调度、微服务、消息、软负载和配置中心等纬度提高系统和架构的健壮性; 提升监控的广度和深...

    文章 中间件小哥 2019-02-28 1892浏览量

  • 130 秒揭秘 EDAS 3.0 如何平滑应对突发流量高峰,为您的业务保驾护航

    "在 PaaS 层面,我们始终拥抱开源技术,并保持和社区版本兼容的时效性;在企业特性上,例如服务治理、应用监控等方面,我们提供一个稳定成熟的产品,来降低企业构建互联网化应用的门槛,例如企业级应用服务 EDAS3.0 就是这样一个典型的产品"——阿里巴巴合伙人、阿里云智能基础产品事业部 高级研究员蒋...

    文章 中间件小哥 2020-10-12 2903浏览量

  • 阿里基础设施的智能监控

    IDC、网络、服务器等基础设施承载了一次又一次的双十一奇迹。随着阿里集团业务全球化、多元化发展,作为整个集团之根本的基础设施,其运营水平显得愈发重要,智能监控成为了重中之重。 阿里IDC承载着为全球业务提供基础服务的重担,服务的稳定性和可用性有着极高的业务要求,同时又面临全球机房环境迥异、设施链条...

    文章 初商 2019-07-30 1040浏览量

  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    引言阿里巴巴经过多年的技术演进,系统工具和架构已经高度垂直化,服务器规模也达到了比较大的体量。当服务规模大于10000台时,小概率的硬件故障每天都会发生。这时如果需要人的干预,系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。 不过这...

    文章 KB小秘书 2019-11-08 719浏览量

  • 基于MaxCompute的数仓数据质量管理

    声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。 参考文献 《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。 背景及目的 数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据...

    文章 海清 2019-04-11 2519浏览量

  • 如何将bug杀死在摇篮里?

    在欧洲中世纪的传说中,有一种叫“人狼”的妖怪,就是人面狼身。它们会讲人话,专在月圆之夜去袭击人类。而且传说中对“人狼”用一般的枪弹是不起作用的,普通子弹都伤不到也打不死它,只有一种用银子作成的特殊子弹才能把它杀死。Brooks在他最著名的随笔文章《No Silver Bullet》里引用了这个典故...

    文章 技术小能手 2017-06-29 2280浏览量

  • 云存储系统监控服务分析

          监控在我们的日常生活和生产随处可见,交通、银行、超市、商场、学校、工厂等等,在刑侦、勘探、科研、安保等各种领域,发挥了越来越大的作用,已经成为人们不可或缺的安全屏障和有力工具。      监控对于计算机网络同样有着巨大的意义和价值,从服务器性能到应用服务状态,从硬件资源到网络流量,为业...

    文章 婷宝要你疼 2016-04-21 4768浏览量

  • 运维创新一小步 企业腾飞一大步

    为何要创新运维      目前国内企业都已经形成一定的信息化规模,不过,随着信息化建设的深入,各企事业单位的IT系统日趋复杂,品牌繁多、数量众多的网络设备、服务器、中间件、业务系统等让IT管理员难以从容应对,即使加班加点的管理、也经常会因设备出现故障而导致业务的中断,严重影响运维的正常运转。在企业...

    文章 技术小美 2017-11-07 1183浏览量

  • 以管理为轴心 为IT服务保驾护航——北京赛特百货有限公司

    · 案例背景     - 被动响应式的工作方式。 - 很难及时发现和预见问题的发生。问题出现后,很难快速、准确地找到根本原因,并及时地找到相应的人进行修复和处理。 - 问题找到后,缺乏流程化的故障处理机制。 - 重复、丢失、忘记用户的请求和信息。 - 支持过程总是被打断和干扰。 - 关键人员的工作...

    文章 技术小美 2017-11-15 840浏览量

  • 软件质量没有银弹:阿里巴巴的25个技术实践与坑

    扫描上述二维码或点我直达 免费领! 作者简介:武小平(平晓),阿里巴巴测试专家,在CICD、自动化测试工具和质量管理方面有较多的经验,目前负责阿里巴巴研发协同平台阿里云RDC的测试。 转载来源:研发协同RDC微信公号(alirdc) 在欧洲中世纪的传说中,有一种叫“人狼”的妖怪,就是人...

    文章 云效鼓励师 2017-06-27 11139浏览量

  • 基础设施助力双11(八):双11全域监控解决方案

    概述 在日常运维和稳定性保障中,监控是发现问题、感知业务异常、感知用户使用落差的重要手段之一。2017年双11,整体规模空前,在这期间任何一个业务问题和影响都会被放大,在保障过程中如何让问题更快速、更全面地被发现感知、响应处理、防止问题的劣化,在线上异常对用户的影响大范围扩散之前达到解决或止血就变...

    文章 初商 2019-07-31 779浏览量

  • AIOps智能监控在阿里巴巴故障管理工作中的成功实践

    摘要:在自动化运维还不普及的时候,运维人员更多的运用手动的方式完成运维工作,这种方式耗时长,效率低。由此,如何合理发挥人工智能技术辅助运维人员进行故障管理工作逐步成为了业界关注的焦点。阿里巴巴的GOC团队通过研究并使用AIOps系统到运维业务场景中的方式,积累了大量的智能运营的方法论和技术体系。 ...

    文章 止水如心 2018-06-26 5430浏览量

  • 3+1保障:高可用系统稳定性是如何炼成的?

    作者 | 承霄来源 | 阿里技术公众号一 概述自己以及带领的团队曾经负责较多不同类型的互联网服务系统,如几十万应用数&亿级流量的云计算平台、年营收将近千亿的广告系统、亿级用户千万级日活的钉钉工作台系统、亿级交易额的钉钉市场&交易系统、算法在线离线工程系统等相关系统或子系统,整体而...

    文章 开发者小助手_LS 2021-01-27 7978浏览量

  • 20 万网络节点背后的数据创新应用

    监控是运维领域的重要组成部分,我们把监控形容为运维的眼睛、耳朵和嘴巴。整个运行的质量状况要靠监控来发现异常,通过告警来通知大家。 在这里,我将向大家分享SNG 监控十年来变革背后的驱动因素和立体化的监控方案,最后给大家展示最新的智能监控的应用场景。 1. IDC异常案例 给大家分享一个最近...

    文章 技术小能手 2018-08-02 1036浏览量

  • 从0到1建立基于大数据的质量平台

    随着互联网的快速发展,大数据与软件质量的关系越来越密切,从源码撰写、持续集成、测试调试、发布运营,整个流程中大数据无所不在。每个数据关联起来对软件质量中的发现、度量、定位都有着重要的价值。如何从 0 到 1 建立基于大数据的质量平台,利用大数据来改善软件质量? 来自阿里巴巴优酷事业部技术专家万传奇...

    文章 优小酷 2018-03-08 12348浏览量

  • 翻译-DevOps究竟是什么?

    原文地址:http://www.drdobbs.com/architecture-and-design/what-exactly-is-devops/240009147 作者:Neil Garnichaud 软件开发目前的最新趋势是DevOps文化,即开发人员和运营人员一起确保软件以最低的故障率...

    文章 无敌西瓜 2014-10-03 689浏览量

  • Devops入门手册

    DevOps 是什么? “DevOps”这个词是 development 和 operations 这两个词的组合。它是一种促进开发和运维团队之间的协作,以自动化和可重复的方式更快地将代码部署到生产中的文化。 DevOps 帮助团体提高软件和服务的交付速度。它使团队能够更好地为客户服务,并提高在市...

    文章 郭旭东x 2019-04-09 3319浏览量

  • 面对大规模 K8s 集群,如何先于用户发现问题?

    作者 | 彭南光(光南)来源 | 阿里巴巴云原生公众号千里之堤,溃于蚁穴。绪论不知道大家是否经历过这样的情景:突然被用户告知系统出现问题,然后一脸懵地惶惶然排查修复;或是等到自己发现系统出现故障时,实际已经对用户造成了严重的恶劣影响。所谓千里之堤,溃于蚁穴。用户信任的建立是长期而艰难的,然而要摧毁...

    文章 阿里巴巴云原生小助手 2021-04-25 1895浏览量

  • 超全总结 | 阿里如何应对电商故障?神秘演练细节曝光

    近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸多有代表...

    文章 技术小能手 2017-06-19 3471浏览量

  • 云开雾散——阿里云工业大数据应用解决方案

    摘要:在云栖TechDay24期上,阿里云数据挖掘专家光盐分享阿里云数加平台如何通过工业大数据和云计算的结合应用;来有效提升良品率,降低生产成本,帮助传统制造业企业快速进入工业4.0;该解决方案将适用于设备运维、生产工艺调优、能源管理、环保、行业监管等应用场景。 下图主要介绍从工业1.0到工业4....

    文章 场景研读 2016-11-29 5605浏览量

  • 石油和天然气行业中的物联网应用

    几乎每一篇关于石油和天然气(O&G)行业的文章都声称,我们可能多年都看不到每桶100美元的石油。将这种价格上的不确定性与下游的石油天然气公司(那些加工、销售和分销石油产品的公司)结合起来,这些公司不再仅仅从具有竞争力的价格中获益,而必须竞争那些越来越寻求增强的数字体验的客户。这些问题在很大...

    文章 物联网IoT996 2020-05-07 189浏览量

  • 带你读《Prometheus监控实战》之一:监控简介

    云计算与虚拟化技术丛书点击查看第二章点击查看第三章Prometheus监控实战Monitoring with Prometheus[澳] 詹姆斯·特恩布尔(James Turnbull) 著史天 张媛 肖力 译第1章 监 控 简 介 本书的核心是Prometheus,一个开源的监控系统,它从应用程...

    文章 被纵养的懒猫 2019-11-11 3180浏览量

  • 那些亿级流水的游戏APP都用了哪些降本提效工具?

    曾有人用“赢了天下,输了玩家”这句话来形容蓬勃发展的手游行业。的确,手游以其便捷、娱乐、碎片化实现了快速爆红,而超高的用户流失率却也是它的致命缺点。导致手游用户流失的环节有很多,从登录复杂,到应用质量,再到分享裂变,每一点都可能会是用户弃玩的原因,这是每个手游开发者都不得不面对的问题。点击下载演讲...

    文章 友盟全域数据 2021-01-07 539浏览量

  • 《移动App测试实战》——1.1 互联网产品常见的研发流程

    本节书摘来自华章出版社《移动App测试实战》一 书中的第1章,第1.1节,作者:邱鹏 陈吉 潘晓明,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.1 互联网产品常见的研发流程 对于每个研发组织,因为产品的特性、组织的特点和一些历史原因,对于产品研发流程的理解和设定都有不同的考虑。但是...

    文章 华章计算机 2017-05-02 1222浏览量

  • 企业运营对 DevOps 的 “傲慢与偏见”

    【写在前面】笔者曾帮助多家大型企业深入了解 DevOps,帮助他们理解如何改善服务交付能力。这些公司大多听说过 DevOps,也在四处寻求一个策略来采用 DevOps 方法,从而进一步占领市场,提升产品质量。出于各种原因,并非所有人都信任 DevOps。有些人觉得 DevOps 只不过给开发者改善...

    文章 晚来风急 2017-08-02 1118浏览量

  • 阿里巴巴复杂搜索系统的可靠性优化之路

    背景 搜索引擎是电商平台成交链路的核心环节,搜索引擎的高可用直接影响成交效率。闲鱼搜索引擎作为闲鱼关键系统,复杂度和系统体量都非常高,再加上闲鱼所有导购场景都依靠搜索赋能,搜索服务的稳定可靠成为了闲鱼大部分业务场景可用能力的衡量标准;如何保障搜索服务的稳定和高可用成为了极大的挑战。 闲鱼搜索作为闲...

    文章 技术小能手 2019-03-14 9449浏览量

  • 在大规模 Kubernetes 集群上实现高 SLO 的方法

    作者 | 蚂蚁金服技术专家 姚菁华;蚂蚁金服高级开发工程师 范康 导读:随着 Kubernetes 集群规模和复杂性的增加,集群越来越难以保证高效率、低延迟的交付 pod。本文将分享蚂蚁金服在设计 SLO 架构和实现高 SLO 的方法和经验。 Why SLO? Gartner 对 SLO 的定义...

    文章 阿里巴巴云原生小助手 2020-11-06 3001浏览量

1 2 3 4 ... 8 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化