• 闲鱼神探——线上问题定位与快速解决

    包括移动端APP,H5,PC端等,将系统拓展至端可以覆盖更全面的异常场景,例如,流量下跌/流量突涨,神探使用上钻分析,将现有拓扑进一步上钻补,构造完整链路,端上流量汇集到故障入口,根据端上数据监控,可以明确...
    文章 2020-07-28 1384浏览量
  • 轻松玩转全链路监控

    鹰眼系统同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪,每天对万亿级别的分布式调用进行分析,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因...
    文章 2020-11-24 5191浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    导读:作为一支深耕多年链路追踪技术(Tracing)与性能管理服务(APM)的团队,阿里巴巴中间件鹰眼团队的工程师们见证了阿里巴巴基础架构的多次升级,每一次的架构升级都会对系统可观测性能力(Observability)带来巨大...
    文章 2019-12-20 895浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    目前整个系统主要聚焦服务稳定性相关的问题定位,仍然有许多场景有待覆盖,信息有待补,措施有待执行,定位只是其中的一环。最终目的一定是建设问题定位,隔离,降级,与快速恢复这样一个完整闭环。要想实现这样...
    文章 2019-07-24 11743浏览量
  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    目前整个系统主要聚焦服务稳定性相关的问题定位,仍然有许多场景有待覆盖,信息有待补,措施有待执行,定位只是其中的一环。最终目的一定是建设问题定位,隔离,降级,与快速恢复这样一个完整闭环。要想实现这样...
    文章 2019-08-29 2751浏览量
  • 历年双11实战经历者:我们是如何做数据库性能优化及运...

    TCPRT全链路系统对用户所有节点上的网络包进行实时分析并绘制出网络拓扑,可以追溯到每段链路上每条用户链接任意每秒的延迟、丢包率、流量、异常等指标。通过可视化用户的真实链路拓扑,我们可以在排查问题时,很容易...
    文章 2017-09-07 9952浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    2,【系统化】系统化,可以体现在SRE工作的方方面面,我觉得,可以主要在“监控、链路治理、演练”3方面入手。这3个方面也正好对应着“发现问题、解决风险、因事修人”3个核心。通过系统化,目的是让我们SRE的工作...
    文章 2020-10-26 4034浏览量
  • 大促场景系统稳定性保障实践经验总结

    这个场景其实对应的就是大促活动、秒杀活动的场景,我们可以在生产环境上做全链路压测,最大限度的模拟用户的真实流量,不断施压摸高,找出系统的性能约束点进行优化;然后反复这个过程。在这个过程中有两个关键点,...
    文章 2020-11-12 6218浏览量
  • 高德打车构建可观测性系统实践

    2 全链路追踪分布式全链路追踪(Tracing)是可观测性的第二大支柱,全局唯一的TraceId利用阿里中间件鹰眼Id的现成解决方案实现,保证了在整个链路的唯一性,然后解决掉在分布式调用链路中,同步改异步丢失traceId的...
    文章 2021-05-20 1160浏览量
  • 总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3674浏览量
  • 深度解读畅捷通云原生架构转型实战历程

    在接入 ARMS 之后,通过全链路信息排查以及应用实时诊断等工具,将定位系统故障源以及性能瓶颈的工作量降低到了之前的 50%以下,极大程度的提升了 IT 团队的工作效率。​技术平台-灰度发布​灰度发布(又名金丝雀...
    文章 2021-06-29 6527浏览量
  • 应用性能的金刚伏魔圈

    三个服务中只有ARMS的知名相对高一些,原因可能是ARMS所对应的APM(应用性能管理)领域已经有了大量的成熟商业产品和公共云服务可供选择,ARMS经常被作为一个对标产品被拿来对比和选择,而PTS所对应的性能测试和...
    文章 2021-02-13 161浏览量
  • 饿了么分布式服务治理及优化经验

    基于全链路压测的结果来评估整个系统的容量。这个全链路只能在线上做,也不能在白天压,只能在晚上低峰期的时候做。所以性能测试也是一个比较挑战的工作,不仅仅是智力上,也是身体上的一种考验。全链路压测试一些...
    文章 2017-11-15 890浏览量
  • 17.5W秒级交易峰值下的混合云弹性架构之路

    今年弹性技术在实时容量评估算法上作了一定的改良,期初主要出于提升效率,最大程度地降低实施成本,与保障集群稳定性的目的:更加智能,使用在线机器学习实时测算应用性能变化,并可作出简单的故障原因分析,通过算法...
    文章 2017-02-27 1873浏览量
  • 【杭州云栖】阿里云高级技术专家刘廷伟:全球CDN服务...

    最后一个客户案例是虎牙,作为国内领先的互动式直播平台,阿里云CDN和虎牙一起实现了端到端的直播全链路监控,可以实时监控和定位直播卡顿问题和原因,保证虎牙直播业务的流畅体验。在分享的最后,刘廷伟老师说到:...
    文章 2018-09-21 3853浏览量
  • 为什么这个92年的小哥从实习生到P8级技术Leader只用了...

    跟前一年相比,2015年双十一的全链路压测在几个方面做了大刀阔斧的改进:一是从核心系统扩展到全部系统,二是和整个集团的压测打通联动,三是平台化,也就是打造一个全链路压测的平台工具,将技术人员的一部分工作...
    文章 2020-07-09 3605浏览量
  • 【双11背后的技术】17.5W秒级交易峰值下的混合云弹性...

    今年弹性技术在实时容量评估算法上作了一定的改良,期初主要出于提升效率,最大程度地降低实施成本,与保障集群稳定性的目的:更加智能,使用在线机器学习实时测算应用性能变化,并可作出简单的故障原因分析,通过算法...
    文章 2017-01-12 3491浏览量
  • 云原生多模数据库 Lindorm助力东软集团 运维监控可视...

    利用阿里云新一代云原生多模数据库Lindorm“灵动”引擎驱动的政府、企业数字信息系统智能运维解决方案,东软做到了实时、海量、异构监控数据一站式存储,实现指标、日志、代码链路和网络包等异构数据融合分析,高...
    文章 2020-10-30 1058浏览量
  • 阿里集团搜索和推荐关于效率&稳定性的思考和实践

    压测平台还支撑了搜索和推荐大规模的全链路压测,由于个性化和cache对系统整体性能影响较大,所以搜索和推荐的压测需要极大的query量,压测平台结合我们的调度系统,充分利用碎片资源实现极低的资源消耗。...
    文章 2018-02-11 5031浏览量
  • Service Mesh 双十一后的探索和思考(上)

    设计链路加密落地最大的挑战就是加密对业务不能造成影响,包括几个问题:必须简化大规模场景下的运维复杂问题,需要具备可灰度、可回滚的能力。灰度运行期间,明文和加密切换不能对业务请求造成影响,需要进行热切...
    文章 2021-07-13 144浏览量
  • 附PPT下载|小邪:新基建之云上IT研发路-基于云架构的...

    例如硬件系统监测+AI故障预测,可以预测磁盘、主板等损坏的时间、故障率、故障诱发原因等指标,提前预警以便迁移应对。云上可以进行热迁移,在预测出故障的情况下及时迁移计算实例,消除故障于无形,宕机率降低到...
    文章 2020-03-30 629浏览量
  • 《私有云计算整合、虚拟化和面向服务的基础设施》一2....

    自2008年10千兆以太网(10Gb Ethernet,10GE)问世以来,带宽的增加使得建设DC时,能够通过更少的链路传输更多的数据,提高了系统整体吞吐量。但是单凭高速10GE链路并不能超越FC,只有“无损”的以太网才能够与FC...
    文章 2017-08-17 1185浏览量
  • Elasticsearch 场景化检索及观测运维介绍

    3、高稳定性要求,成本高:教育行业不仅仅 向客户暴露业务系统,日志系统也会面向 用户使用(如监课),全链路的稳定保障 要求极高;4、搜索高要求:不仅仅是全文检索,基于标 签的本文、甚至是非文本检索需求导致...
    文章 2020-08-18 992浏览量
  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    我们就可以用来做资源利用率的分析统计,可以提供实时的监控报警,进行故障分析统计,也可以分析整体 KubeNode 中的节点以及节点组件的覆盖率、一致率、节点自愈的效率,并提供针对节点的全链路诊断功能,当排查节点...
    文章 2021-03-11 841浏览量
  • 饿了么技术往事(下)

    后面很多看起来轻而易举的事情 —— 午高峰线上故障容灾、全面上云、站底层容器及调度系统的升级等等 —— 没有这次架构演进将会很艰难。体会和教训: 多数据中心——多数据中心核心解决高可用诉求和容量带来的...
    文章 2020-11-26 3561浏览量
  • 浅谈云原生架构的 7 个原则

    因此,如何构建系统资源、容器、网络、应用、业务的栈可观测体系,是每个企业都需要思考的问题。​韧性原则​韧性是指当软件所依赖的软硬件组件出现异常时,软件所表现出来的抵御能力。这些异常通常包括硬件故障、...
    文章 2021-08-13 44浏览量
  • 2020云栖大会百城汇·广州站 云原生专场全程回顾

    临近金九银十商家年终促销旺季,加上今年疫情的原因,今年的促销显得格外珍贵和意义非凡,我们真诚希望用阿里云成熟的全链路压测方案,为即将到来的营销大促季提供最佳实践,为中国经济添砖加瓦,为各行各业保驾护航...
    文章 2020-09-18 774浏览量
  • 网络实战ospf多区域原理与实战

    当线路出现故障时,管理距离小的路由失效,管理距离大的路由为最佳路由,会被路由器选入路由表中。需要注意的是,路由器转发数据时选择可以和目的地址最精确匹配的路由。例如,如果路由表中存在路由条目172.19.64.0/...
    文章 1970-01-01 981浏览量
  • 网络实战ospf多区域原理与实战

    当线路出现故障时,管理距离小的路由失效,管理距离大的路由为最佳路由,会被路由器选入路由表中。需要注意的是,路由器转发数据时选择可以和目的地址最精确匹配的路由。例如,如果路由表中存在路由条目172.19.64.0/...
    文章 1970-01-01 991浏览量
  • 首次公开!阿里搜索中台开发运维一体化实践

    朝着面向平台产品化的角度上前进一步:一是对用户屏蔽配置或者code或者领域知识复杂,二是将系统协同变成一种端对端体验的管控,因为只有做到了简化复杂全链路端对端体验的管控才能真正让复杂搜索业务迭代效率...
    文章 2018-08-01 6083浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化