• 阿里云网络双十一的定海神针-智能网络平台齐天

    网络当中故障随时可能会发生,一台设备的故障,一根线路的异常,甚至一个端口的问题,都有可能导致网络故障的发生,而一旦网络发生故障,引起的蝴蝶效应则是大面积的上层业务和应用出现问题。很明显,双11期间我们是...
    文章 2019-11-20 3019浏览量
  • 面向对象葵花宝典:思想、技巧与实践(18)-用例分析

    前面我们学习了518需求分析方法,而一个完整的用例,正好体现了518需求分析方法中涉及的内容。一个完整的用例应该包含如下几个部分: 【用例名称】 一般情况下,用例的名称即需求的名称。【场景】 场景即用例发生的...
    文章 2014-03-17 1385浏览量
  • 高效运维之员工的四大误区及解决之道

    另外,也不要觉得自己负责的这部分没问题,于是对发生的重大故障,就再也不管不问、隔岸观火。应该主动和大家一起分析讨论,群策群力,解决问题。如果下次你负责的这部分出现了严重故障,其他人都漠然坐上观,你是否...
    文章 2016-06-09 2894浏览量
  • 应用程序的架构演变,微服务不是终点

    一个服务发生故障,就可能会产生雪崩效用,导致整个系统故障。而且,更要命的是,定位故障点变得非常困难。之前的单体应用,排查问题通常是看一下日志,研究错误信息和调用堆栈。现在可怎么办?可以从两方面入手,一...
    文章 2019-10-08 1231浏览量
  • 商务智能系统的数据架构与管理》一 2.9 报告和分析的...

    这种需求分析运行在昨天的数据上没有任何意义。另一个应用的地方是信用卡欺诈检测。一种经典的信用卡欺诈检测形式的检测是在被盗的卡被用来购买产品时。每一次交易数据都需要被分析来看看它是否符合卡持有者的购买...
    文章 2017-09-08 780浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统和故障的数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4692浏览量
  • 信息系统项目管理01——信息化和信息系统

    (2)MMTR——平均维护时间,可维护性用此度量,这是系统发生故障后维修和恢复正常花费的平均时间。1.4 软件工程 1 需求 1 好的需求应该具有无二义性、完整性、一致性、可测试性、确定性、可跟踪性、正确性、必要性...
    文章 2020-12-11 117浏览量
  • AI赋能DevOps:数据驱动的全栈工程师实践

    那么通过这种钻取我们可以找到一系列的更加关联的信息,我们最终找到了信息足够多之后,我们要确定最终的一个答案,这个就是根因分析,帮我们确定故障的根本原因是什么。数据驱动和AI驱动的DevOps实践 1:搜索和上...
    文章 2019-11-04 9309浏览量
  • 带你读《SAS数据分析开发之道 软件质量的维度》第二章...

    不成文的需求随时都会发生变化。当软件超出或无法满足客户需求时&xff0c;软件需求能够帮助避免这种偏差&xff0c;如图 2-4所示&xff0c;后面部分会继续讲述这一点。图2-4“不尽人意”和“画蛇添足”需要注意的是&xff0c;...
    文章 2021-10-20 1浏览量
  • 车联网上云最佳实践(二)

    再例如故障检测服务,通过订阅消息队列中有关汽车传感器数值进行分析和判断该车辆是否存在故障。数据分析: 部分行车数据经过各个模块的处理最终保存在数据库中,通过利用大数据分析进行特定场景的离线分析,例如...
    文章 2018-08-22 2582浏览量
  • 新冠这只“黑天鹅”,AI 该如何“驯服”?

    事实上,已经有一些出色的实践,通过对生产模型进行强有力的监视、分析故障排除来掌握离群值事件。当前的环境有多极端?极端到了极点了。从天气、失业率、交通模式、用户支出等输入特性数据进入生产模型时,你会...
    文章 2020-04-23 283浏览量
  • 车联网上云最佳实践(一)

    再例如故障检测服务,通过订阅消息队列中有关汽车传感器数值进行分析和判断该车辆是否存在故障。数据分析:部分行车数据经过各个模块的处理最终保存在数据库中,通过利用大数据分析进行特定场景的离线分析,例如驾驶...
    文章 2018-08-31 2926浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    除去因问题发现、容量规划、流控和熔断降级引起的“崩”外,运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样会在关键时刻让...
    文章 2020-02-18 4569浏览量
  • 三年0故障总结,提升代码质量的秘诀

    因为项目进度一紧,代码质量就容易妥协,常见的现象"我下个版本会改过来的","这个应该暂时没有问题","这个代码是没有按规范来做,但改动风险太大,出故障怎么办".这时候,如果你在这妥协,基本以后代码规范就很难维持了...
    文章 2015-12-08 15111浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    除去因问题发现、容量规划、流控和熔断降级引起的“崩”外,运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样会在关键时刻让...
    文章 2020-02-18 4955浏览量
  • 三年0故障总结,提升代码质量的秘诀

    因为项目进度一紧,代码质量就容易妥协,常见的现象"我下个版本会改过来的","这个应该暂时没有问题","这个代码是没有按规范来做,但改动风险太大,出故障怎么办".这时候,如果你在这妥协,基本以后代码规范就很难维持了...
    文章 2017-12-01 1571浏览量
  • 三年0故障总结,提升代码质量的秘诀

    因为项目进度一紧,代码质量就容易妥协,常见的现象"我下个版本会改过来的","这个应该暂时没有问题","这个代码是没有按规范来做,但改动风险太大,出故障怎么办".这时候,如果你在这妥协,基本以后代码规范就很难维持了...
    文章 2017-12-04 1424浏览量
  • 《IT运维之道》——第17章 天外有天:IT服务的国际...

    可用性管理:可用性管理是通过分析用户和业务方的可用性需求并据以优化和设计IT基础架构的可用性,从而确保以合理成本满足不断增长的可用性需求的管理流程。可用性管理是一个前瞻性的管理流程,它通过对业务和用户...
    文章 2017-05-02 1444浏览量
  • 阿里集团搜索中台TisPlus

    其次很多时候运维管控操作是会出现反复,比如正在做全量任务流程中,出现需要更换机器怎么办,比如升级A版本过程中突然需要改回B版本了,又比如回滚B版本过程中又得升级到C版本怎么办?好吧遇到上述问题,过程式管控...
    文章 2018-01-26 6739浏览量
  • 传统企业数据库上云案例分享

    但是从节点势必会引起延迟,当主节点发生故障的时候,这个时候不知道从节点的数据是不是最新的,因此如果切换从节点,很有可能会造成数据的丢失。为了解决这个问题,MySQL官方提供了另一种方式,半同步复制。半同步...
    文章 2018-05-30 2786浏览量
  • 阿里云服务器购买前应该注意哪些事项?

    云服务器(包年包月)支持在线自定义升级,升级是无缝的,您不需要重新部署环境或迁移数据,IP也不会发生变化。操作非常简单,通过控制台即可完成升级,您只需根据升级时长补差价即可。a)云服务器支持在线升级CPU、...
    文章 2019-12-18 3895浏览量
  • 腾讯最赚钱的部门是怎么做运维的?

    背景介绍 ...所以,运维平台做为内部平台,也需要重视用户的交互,一定要有良好的界面,要让用户操作起来比较方便而且不容易发生误操作。本文来自云栖社区合作伙伴"DBAplus",原文发布时间:2016-01-27
    文章 2017-05-02 2119浏览量
  • 《架构真经:互联网技术架构的设计》水平扩展

    两台设备被配置成高可用性(HA)模式,供应商声称这种配置允许服务在故障发生时可以无缝转移。不幸的是,ZirMed的产品在会话期间依赖状态,并且会话状态无法在一对防火墙之间做优雅失败的平滑配置。克里斯继续说,...
    文章 2017-05-19 2595浏览量
  • 《架构真经:互联网技术架构的设计原则(原书第2版)...

    两台设备被配置成高可用性(HA)模式,供应商声称这种配置允许服务在故障发生时可以无缝转移。不幸的是,ZirMed的产品在会话期间依赖状态,并且会话状态无法在一对防火墙之间做优雅失败的平滑配置。克里斯继续说,...
    文章 2017-05-02 1238浏览量
  • 需求设计:构建用户想要和需要的产品》——2.2 ...

    同一项任务之所以可能产生不同的结果,通常是因为用户可能会做出不同的决策,然而做情境设计的人,还应该考虑到下面两种状况:IT应用程序发生故障(例如,服务器断电)。用户在任务尚未完工时就将其停止了(例如,...
    文章 2017-05-02 1012浏览量
  • 打造应用全栈监控:ARMS 最佳实践

    特别对很多初创公司,他们当前主要主力还在于业务的扩展,一些新需求的开发,这时他们再投入一些宝贵的人力做运维工作的时候,对他们的成本有非常大的影响。所以ARMS正是针对上面的痛点,来帮助用户快速的进行故障的...
    文章 2018-05-31 1951浏览量
  • Apache Flink 在快手的过去、现在和未来

    如果出现了一个节点故障,比如 node3 发生故障了。Flink 引擎会重新从 YARN 申请资源,完成 TaskManager 初始化,并重新部署作业。我们对一个业务作业做了一个分析,发现宕机故障后到作业恢复,共需要 90s 的时间。...
    文章 2021-02-26 1058浏览量
  • 如何设计稳定性横跨全球的 Cron 服务

    我们先来分析下 Cron 的基本原则和它最常见的实现,然后我们来回顾下像 Cron 这样的服务应该如何运行在一个大型的、分布式的环境中,这样即使单机故障也不会对系统可用性造成影响。我们将会介绍了一个建立在少量...
    文章 2017-06-05 1091浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也不敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展性和...
    文章 2018-05-15 1501浏览量
  • 阿里云新品发布会周刊第112期 丨 空中架构师云速搭...

    减轻了工作量、提升开发工作效率的同时还能减少bug的发生 查看原文2、快速界定故障:Socket Tracer网络监控实践Socket Tracer定位是传输层(Socket&TCP)的指标采集工具,通过补齐网络监控的这部分盲区,来达到...
    文章 2021-08-06 83浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化