• 微服务架构的基础设施

    一、服务发现微服务种类和数量很,如果这些信息全部通过手工配置的方式写入各个微服务节点,首先配置工作量很大,配置文件可能要配几百上千行,几十个节点加起来后配置就是几万几十万行了,人工维护这么大数量的...
    文章 2020-06-01 469浏览量
  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    故障演练的定义线上故障演练就是通过平台化的方式沉淀通用的故障场景,以可控成本在线上故障重放,通过持续性的演练和回归方式来暴露问题,提升问题的响应和修复能力,缩短故障修复时长(MTTR)。实施准备对于一个...
    文章 2019-11-08 1254浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    而信息不对称的原因是,每种分布软件架构在设计都是内敛闭环的。现在,通过各种机制各种运维工具,可以抹平这些冲突,然而这种方式就像是在打补丁,伴随着架构的不断升级,补丁似乎一直都打不完,而且越打越。...
    文章 2018-11-24 3436浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    而信息不对称的原因是,每种分布软件架构在设计都是内敛闭环的。现在,通过各种机制各种运维工具,可以抹平这些冲突,然而这种方式就像是在打补丁,伴随着架构的不断升级,补丁似乎一直都打不完,而且越打越。...
    文章 2018-11-19 2951浏览量
  • CPU静默数据错误:存储系统数据不丢不错的设计思考

    通常由 n 个数据位,通过数学的多项式计算得到 k 个校验位,实现错误检测和纠错。它被广泛应用于数据的传输校验、以及硬盘的存储校验中。LDPC(Low Density Parity Check Code)算法。它通过校验矩阵定义的一类线性...
    文章 2021-07-01 3045浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    数据一致性在分布处理以及微服务化后,相关联的数据会存在于不同的系统之中,相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因,导致彼此数据出现不一致,这也是一类稳定性故障。...
    文章 2021-01-27 8367浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2016-05-05 4862浏览量
  • 裴丹教授采访|如何实现智能运维及对运维行业的未来...

    故障识别也叫故障根因分析(Root Cause Analysis),是智能运维领域非常有挑战性的一个工作,主要在于三个原因: 对各类事件的监控要全面,少了数据不行,实践中很难一下就全面监控各类事件;对各类事件的监控要准确...
    文章 2017-08-01 1933浏览量
  • 人工智能如何改变制造业和工业物联网?

    机器学习预测性维护方法可以使用各种模型和方法,从使用历史数据来预测故障回归模型和分类模型到分析系统和组件以寻找应变或异常迹象的异常检测模型。用于质量控制的计算机视觉汽车和消费品行业面临监管机构的苛刻...
    文章 2021-02-25 226浏览量
  • jdbc连接遭遇RAC设备

    在RAC中,我们有多项新的专利技术,专注于如何为应用系统创建一个高可用性、高伸缩性和高效的集 群系统,而无需修改现有的应用系统。同时,我们在RAC的易管理性上作了大量工作。RAC系统架构把所有复杂的内部结构都...
    文章 2017-11-07 1077浏览量
  • Qcon演讲实录|手机淘宝客户端的攻防演练实践

    混沌工程是近年来服务端分布架构应对未知风险的其中一比较热门的实践。“混沌工程原则”网站给出了下面的定义——混沌工程是一门对系统进行实验的学科&xff0c;旨在了解系统应对生产环境的各种混乱状况的能力&xff0...
    文章 2021-09-22 46浏览量
  • 带你读《Python机器学习》之一:机器学习基础

    回归算法是统计机器学习的利器,常见的回归算法包括:最小二乘法(Ordinary Least Square)、逻辑回归(Logistic Regression)、逐步式回归(Stepwise Regression)、多元自适应回归样条(Multivariate Adaptive ...
    文章 2019-11-16 2001浏览量
  • 高可用互联网系统稳定性建设实践指南

    相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因导致彼此数据出现不一致&xff0c;这也是一类稳定性故障。最简单一致性问题就是关系型数据库的同请求内同库相关联个数据表更新的...
    文章 2021-09-01 62浏览量
  • 预测分析:R语言实现.

    虽然这类模型有很示例,但本章的重点是逻辑回归这样一个针对分类问题的流行方法。我们还会探讨该模型扩展到针对类别的情况,发现该方法对于二元分类(binary classification)的效果最好。第4章会讲解能够处理...
    文章 2017-05-02 8563浏览量
  • 还不知道如何实践微服务的Java程序员,这遍文章千万...

    服务数量变导致其中一个服务出现故障的概率增大,并且一个服务故障可能导致整个系统挂掉。事实上,在大访问量的生产场景下,故障总是会出现的。服务数量非常,部署、管理的工作量很大。开发方面:如何保证各个...
    文章 2019-08-27 1411浏览量
  • 制造业人工智能8大应用场景

    另一方面,面对设备的突发故障,能够迅速进行故障诊断,定位故障原因并提供相应的解决方案。在制造行业应用较为常见,特别是化工、重型设备、五金加工、3C制造、风电等行业。以数控机床为例,用机器学习算法模型和...
    文章 2020-12-17 201浏览量
  • 头一回见!提升10倍效率,阿里给业务校验平台插上了AI...

    其中第一步的计算开销一般远大于第二步,很算法都集中在第一步中如何更高效的产生频繁集,主要有先验算法(Apriori)与频繁模式增长(FP Growth),我们用比较成熟的Apriori算法来解决。值属性: 以上我们仅...
    文章 2018-12-12 15932浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    坑2:由于监控种类太,造成有些复杂的故障问题或性能问题的定位就变的很复杂,影响了问题的快速定位和故障处置。解决思路: 证券行业监控需求的另一大痛点是业务复杂,彼此关联甚,从而导致监控信息淹没,给问题...
    文章 2017-05-02 3313浏览量
  • 光伏开启全面洗牌模式 逆变器进入寡头时代

    5月14日至15日,中国在北京举办“一带一路”国际合作高峰论坛,和各国一起共商合作大计,并且确定了多项合作成果。其实,自“一带一路”倡议提出以来,中国光伏行业作为全球领先的中国制造业,也成为优势产业走出去...
    文章 2017-07-03 1755浏览量
  • 袋鼠云助力光伏产业|基于阿里云数加平台做算法预测

    分布电源未来会走进千家万户,通过基于功率数据进行发电功率预测,可以为客户提供更的增值服务,拥抱电力市场化的大环境。如何精准预测光伏发电也将是业界一个重要的课题,欢迎大家和袋鼠云一起探索新能源时代的...
    文章 2017-04-10 3768浏览量
  • 专访阿里陈康贤:我所理解的网站架构

    花了很的精力去熟悉分布场景下各种中间件的工作原理及使用场景,以便提高系统架构的可靠性降及低工作量,在店铺那边呆了几个月,了解到一个复杂建站系统是如何工作的,页面如何模块化,如何渲染,如何通过静态化...
    文章 2018-03-01 3412浏览量
  • 机器学习和数据挖掘的联系与区别

    比如,用户投诉上网慢,其中就有很原因,有可能是网络的问题,也有可能是用户手机的问题,还有可能是用户自身感受的问题。怎样快速分析和定位出问题,给用户 一个满意的答复?这就需要用到决策树。下图就是一个...
    文章 2017-08-01 2657浏览量
  • 从分布一致性算法到区块链共识机制

    这个问题想必对于很技术同学而言并不陌生,几乎在所有的分布系统中都会遇到,比如hdfs、mq、zookeeper、kafka、redis、elasticsearch等。然而这个问题却历久弥新,随着分布网络的蓬勃发展与复杂化,对于该问题...
    文章 2019-05-13 2560浏览量
  • 如何实现32.5万笔/秒的交易峰值?...

    在平台未改动情况下,业务方的发布更加灵活(有次单业务发布,不需要其他业务方进行回归的案例)。业务资产库。积累形成了50+业务资产库,新业务可快速进行快速复制、调整并发布。原文发布时间为:2018-03-6 本文...
    文章 2018-03-06 10252浏览量
  • 分享实录|阿里巴巴DevOps文化浅谈

    技术的创新给测试团队带来了很大影响,通过线上流量复制到线下,低成本的解决了测试回归的问题,将传统通过编写用例进行测试,简化为编排数据进行测试。第二层是Mock技术的应用,将一个分布系统问题,转化为...
    文章 2020-03-30 3388浏览量
  • 基于MaxCompute/Dataworks实现数据仓库管理与全链路...

    (3)请求报头,一般会附加很内容(每内容被称为一个头域,Header),用户如果已登录过,则一般会在请求头中附加一个或个被称为Cookie的数据,其中记录上一次访问的信息。(4)请求正文,一般HTTP请求的...
    文章 2019-04-28 1983浏览量
  • 未雨绸缪:从软件测试到质量保证

    针对大量的重复性功能测试,可以采用自动化回归测试方案,每天设定程序自动执行,从而减低人力成本,提供测试效率。解决了系统是否能用问题,好不好用就提到了重要位置。也就是性能测试。如果系统不能在规定的时间内...
    文章 2017-07-10 2049浏览量
  • 运维杂谈老王:详谈运维可视化、DevOps和运维危机

    在问题发生时不仅在管内(pipeline flow)流转(要引入更的变更和工作),而是关注在找到瓶颈发生的真正原因并加以修正【杜绝浪费】 保证对客户透明,在出现问题时勇于担当,在问题解决后保持警惕,客户自然有理由...
    文章 2017-05-02 5484浏览量
  • 17.5W秒级交易峰值下的混合云弹性架构之路

    今年弹性技术在实时容量评估算法上作了一定的改良,期初主要出于提升效率,最大程度地降低实施成本,与保障集群稳定性的目的:更加智能,使用在线机器学习实时测算应用性能变化,并可作出简单的故障原因分析,通过算法...
    文章 2017-02-27 1887浏览量
  • 《程序员度量:改善软件团队的分析学》一生产力

    回归”bug指的是曾经正确的功能出现部分、全部故障的产品问题。回归bug对现有用户的感受和信心的伤害尤其严重,因此即使是一个可能微不足道的实际问题,其整体影响也可能相当严重。一般情况下,程序员要特别注意...
    文章 2017-08-01 958浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化