• Mocha BSM应用管理——Portal监控与管理

     我们替客户解决了这些重复劳动的问题系统自动化进行对Portal系统及其多个关键组件的监控工作,定期抽取系统指标,一旦Portal系统出现问题系统可以第一时间给相关的管理员发短信。 不管客户增加多少个...
    文章 2017-11-11 986浏览量
  • 饿了么大数据计算引擎实践与应用

    对集群任务运行状况详细数据没有明确认识的话,很容易当出现问题时陷入困境,从监控看到集群异常后将无法继续进一步快速定位问题。当经常有用户找你说,我的任务为什么跑失败了?我的任务为什么跑的这么慢?我的任务...
    文章 2018-05-29 9014浏览量
  • 深入理解云计算OpenAPI体系

    图3 资源生产者和消费者如果能够统一资源模型,就相当于客户和阿里云在有一套面向对象的Java类或者数据库表,凡是依赖该资源模型的产品都将从中受益,理解更容易,沟通上保持一致性,研发上可以提供统一的技术方案...
    文章 2021-09-27 596浏览量
  • 如何成为优秀的技术主管?你要做到这三点

    由于人的思维是发散性的,所以往往在产品构思的过程中会出现各种新鲜好玩的想法,这些想法可能来自领导或者产品经理自己,但是这些想法往往都是和产品核心方向不相关的,但是由于这些想法能够在当时带来诱惑,因此...
    文章 2019-02-27 9911浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    以交易系统为例,一个交易系统会同时承载天猫、盒马、大麦、飞猪等多种类型的业务,而每种业务的预期调用量、下游依赖路径等均不相同,作为交易系统的负责人,很难梳理清楚每种业务的上下游细节逻辑对自身系统的影响...
    文章 2019-12-20 1043浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    D的监控依赖数据,在传统监控体系中,一旦B出现故障,则同时发出B、C、D三个告警,给问题排查造成困难;而在一体化监控平台中,只发出B告警,同时告知受影响的业务C,D,排除干扰,实现问题快速定位。趋势分析 ...
    文章 2017-05-02 3313浏览量
  • 阿里集团搜索和推荐关于效率&稳定性的思考和实践

    这里的优化建议还从平台的角度结合全局资源情况来定,比如从平台角度考虑到调度系统资源分配可能存在资源碎片,我们希望部分业务能适当拆分,用更多的行和列、每一个instance占用更少的内存和CPU。虽然从业务本身...
    文章 2018-02-11 5031浏览量
  • 全面剖析 Knative Eventing 0.6 版本新特性

    我们这里可以简单展望一下,社区接下来进一步增强 Trigger 过滤策略(支持正则表达过滤等),并且针对目前使用同一个 Channel CRD 资源很难定位 Channel 中问题,接下来为每一个 Channel 定义独立 CRD 资源,这些...
    文章 2019-05-17 1426浏览量
  • 一目了然,看民生银行 IT 运维故障管理可视化案例

    当变更日的次日清晨,应用运维人员可以自动收到邮件通知,将上述信息进行汇总,点击后即可打开封装好上述数据和图形的场景化页面,从而对变更后的状态一目了然,一旦出现问题也可以查看问题表征,并迅速定位上下游...
    文章 2018-09-27 3359浏览量
  • iOS Abort问题系统性解决方案

    对于第6类退出,可能的原因很多,包括但不限于:系统内存不足时继续申请内存、主线程卡死20s以上、CPU使用率过高Stack Overflow等,在此我们统一称之为iOS客户端的“Abort问题”。Abort问题无法被堆栈捕获,且发生...
    文章 2020-08-11 3571浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    大家知道 K8s 社区只能够支撑五千个节点,当超过这个规模时,会出现各种性能瓶颈问题,比如:etcd 出现大量的读写延迟。kube-apiserver 查询 pods/nodes 延时很高,甚至导致 etcd oom。控制器无法及时感知数据变化,...
    文章 2021-05-17 701浏览量
  • 性能优化,进无止境-内存篇(下)

    当这些AssetBundle先后被加载到内存后,内存中即会出现纹理资源冗余的情况。对此,我们建议研发团队在发现资源冗余问题后,对相关AssetBundle的制作流程一定要进行检查。同时,我们在UWA测评中为每个资源引入了一个...
    文章 2018-02-06 979浏览量
  • 杨彪|一次线上游戏卡死的解决历程(文末赠书福利)

    在理想情况下,每个系统会对各种严重情况设计止损和降级开关,因此,在发生严重问题时先使用止损策略,在恢复问题后再定位和解决问题。解决问题要以定位问题为基础,必须清晰地定位问题产生的根本原因,再提出解决...
    文章 2017-08-16 2201浏览量
  • 面向失败的设计-概述

    这些库可能存在漏洞、可能有bug,可能大量消耗你的系统资源,总之不要太信任它们。依赖服务问题 你依赖的服务也一定不会100%可用,它们可能超时,可能失败。当依赖服务超时的时候,如果你没有很好的处理,...
    文章 2019-11-08 1468浏览量
  • DaoCloud的微服务架构演化实践

    第二个问题是PaaS平台要承载各种不同语言不同框架编写的应用,一旦用户的应用在你的平台起不来或者出现问题,虽然绝大部分问题都是应用自己的问题导致的,但是你不得不深入应用实现去帮助用户定位问题,这对云应用的...
    文章 2016-04-11 3231浏览量
  • 深度丨详解 Amazon Go 三大核心技术

    我们知道,有了顾客动作,还要识别动作承受的商品,不然会出现张冠李戴的现象。陈维龙继续解释到,这部分分成两个步骤来处理:识别被拿走的物品和识别放回的物品。识别被拿走的物品 因为物品是被雇员人工放置的,...
    文章 2017-08-01 2252浏览量
  • 为什么说优秀架构师往往是一个悲观主义者?

    这些库可能存在漏洞、可能有bug,可能大量消耗你的系统资源,总之不要太信任它们。依赖服务问题 你依赖的服务也一定不会100%可用,它们可能超时,可能失败。当依赖服务超时的时候,如果你没有很好地处理,...
    文章 2019-06-18 24558浏览量
  • 《企业私有云建设指南》内容节选-第7章 企业私有云...

    统一的云管理平台打破了业务应用对资源的独占方式,实现硬件资源和软件资源统一认证、统一管理、统一分配、统一部署、统一监控和统一备份,如图7-4所示。图 7—4 云资源管理 云资源管理系统架构需要实现的功能: ...
    文章 2019-02-20 2564浏览量
  • 读《SRE:Google运维解密》一点思考

    不仅如此,SRE对各个服务的可用性进行标准化定义,将统一的标准应用到不同的服务中去,将稳定性作为各个服务的重要度量指标,通过上述操作,收拢服务治理问题,提供系统的鲁棒性。2.2 明确服务之间的可用性依赖 2.2....
    文章 2019-12-16 2895浏览量
  • 开源自建/托管与商业化自研 Trace,如何选择?

    负责稳定性的同学应该对这种场景不陌生:系统在夜间或整点大促时会出现偶发性的接口超时,等到发现问题再去排查时,已经丢失了异常现场,并且难以复现,无法通过手动 jstack 来诊断。而目前开源的链路追踪实现一般...
    文章 2021-08-24 214浏览量
  • 《云数据中心构建实战:核心技术、运维管理、安全与高...

    在未来,随着云技术的深入发展和应用,数据中心的管理更加统一资源利用效率也大幅提升,而管理的易用性和便捷性也更加人性。高可用性《ANSI/TIA-942》标准规定Tier IV级数据中心的可用性为99.995%,也就是说...
    文章 2017-07-03 1995浏览量
  • 云原生可观测性实践

    在微服务架构下,客户端的请求先通过网关转发给之后对应的具体的应用,每个应用完成不同的功能,各应用的依赖性变的很复杂,这样就导致问题的排查以及故障的定位难度也变的很复杂。接下来看容器化的部署: K8S的...
    文章 2020-07-10 913浏览量
  • 回归架构本质,重新理解微服务

    中间的技术研究、产品研发、运维管理就会出现非常多的资源浪费。弊端五:难以考核 怎么衡量一个川菜厨师和一个鲁菜厨师谁更优秀?当每个团队都是一个闭环,采用不同技术栈、不同的技术组件、不同的维护方式和规范时...
    文章 2019-08-20 5567浏览量
  • DevOps落地三部曲:如何归责?用啥工具?...

    所以我们根据企业当前人员情况对Scrum进行了裁剪,不是什么都要,明确哪些问题需要用Scrum去做。把Scrum流程引入之后,再用JIRA做需求管理、排期这些事情,然后内部用GitLab去做整个代码的管理,搭一个服务器,把UT...
    文章 2017-12-15 3122浏览量
  • 助力可观察性统一平台:SLS Trace服务发布

    例如简单的系统可以直接通过日志的错误信息去告警并直接定位问题&xff0c;也可以根据调用链提取的基础指标&xff08;Latency、ErrorCode&xff09;触发告警。但整体而言&xff0c;一个具有良好可观察性的系统必须具备上述三种...
    文章 2021-04-19 2088浏览量
  • 一文读懂分布式架构知识体系(内含超全核心知识大图)

    分布式消息队列系统是消除异步带来的一系列复杂步骤的一大利器,在多线程高并发场景下,我们常常需要谨慎设计业务代码,来保证多线程并发情况下不出现资源竞争导致的死锁问题。而消息队列以一种延迟消费的模式将异步...
    文章 2019-10-16 6154浏览量
  • 如何设计高可用系统之故障隔离

    拆分后,支付业务会将数据异步同步给账单系统,账单系统会保存到更适用于账单查询的大数据存储中(HBase 或 ES)。系统资源隔离将不同的请求和所使用的资源隔离,不互相影响。例子 1 API 请求网关,如果所有 API 请求...
    文章 2019-08-06 1084浏览量
  • 《深入理解Nginx:模块开发与架构解析》一第1章 研究...

    以统一资源描述符(Uniform Resource Identifier,URI)或者统一资源定位符(Uniform Resource Locator,URL)作为沟通依据,通过HTTP为浏览器等客户端程序提供各种网络服务。然而,由于这些Web服务器在设计阶段就受...
    文章 2017-08-01 1168浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    热点或极限值处理业务规模以及数据规模大的部分系统,在系统会出现数据热点、数据极度倾斜、少量大客户超过极限阈值使用等极限场景,例如超级大客户广告投放物料、广告点击展示数据、API调用频次都是比普通客户大...
    文章 2021-01-27 8367浏览量
  • 性能测试总结(二)-测试流程篇

    通常测试环境在白天比较繁忙,出现性能问题定位难度较大且影响功能测试。所以一般性能测试最好在晚上或周末进行,在相对较安静的条件有利于测试结果的稳定性。这种方法也相对比较适合敏捷的模式,不需要人工一直...
    文章 2017-06-15 1458浏览量
1 2 3 4 ... 17 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化