• 关于

    点对点链路常见故障

    的搜索结果
  • 架构设计 | 分布式体系下,服务分层监控策略

    一、分布式故障 分布式系统的架构,业务开发,这些在良好的思路和设计文档规范之下,是相对来说好处理的,这里的相对是指比较分布式架构下生产环境的突然故障。 在实际的开发中,有这样一个很妖娆的情况:越是核心复杂的业务,越是担心出问题,越容易出问题。 所以当核心服务的链路出现故障时,如何快速定位问题就是...

    文章 知了一笑 2020-09-17 341浏览量

  • 闲鱼神探——线上问题定位与快速解决

    作者:闲鱼技术-迎墨 神探产品定位 神探是一款面向服务端稳定性问题自动定位并辅助快速解决故障的线上排查工具。软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查,线上问题持续发生,带来的问题,一方面是大量时间投入和繁复操作,...

    文章 闲鱼技术 2020-07-28 1027浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的智能化之路

    阿里巴巴资深技术专家后羿 后羿:大家好,首先给大家呈现的是阿里巴巴在双11中主要依赖的网络相关技术。在今年双11中我们在稳定性、高性能网关、去堆叠以及25G、骨干网流量调度平台、流量的精准评估、QOS优化和成本优化方面都取得了突破性的进展。 助力双11的重要网络技术 在稳定性的强化方面,在过去一年...

    文章 技术小能手 2018-01-05 4736浏览量

  • 基础设施助力双11(十):百万级物理和虚拟网络设备的智能化之路

    导言 后羿:阿里巴巴资深技术专家,参与8年双11大战,主导阿里“去IOE”战略落地,目前在推动阿里基础设施智能化。 后羿此次给大家分享的是双11的智能化网络实践,关于如何在网络智能领域通过数据手段极致地优化运营场景,在稳定性、成本、效率方面提升网络运营竞争力,给大家呈现了阿里巴巴在双11中主要依赖...

    文章 初商 2019-07-31 804浏览量

  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化实践

    12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《双11的智能化网络实践》演讲整理,主要讲解了阿里巴巴在网络智能化技术中,大量级网络下网络变更、调度优化技术的大幅度提升,故障快速发现、定位、恢...

    文章 zengzengzeng 2017-12-14 1794浏览量

  • 浅析单点故障以及云上高可用和容灾

    引言 故障,不管它发生的概率有多低,终归还是会发生的。                                                                                     ...

    文章 尘轩 2017-09-27 4610浏览量

  • 详解数据中心网络高可用的技术

    一、高可用性的定义 系统可用性(Availability)的定义公式为:Availability=MTBF/(MTBF+MTTR)×100% MTBF(MeanTimeBetweenFailure),即平均无故障时间,是描述整个系统可靠性(reliability)的指标。对于一个网络系统来说,MT...

    文章 青衫无名 2017-08-01 2043浏览量

  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生时代”的全面升级

    本文节选自《不一样的 双11 技术:阿里巴巴经济体云原生实践》一书 作者:周小帆(承嗣)  阿里云中间件技术部高级技术专家王华锋(水彧)  阿里云中间件技术部技术专家徐彤(绍宽)  阿里云中间件技术部技术专家夏明(涯海)  阿里云中间件技术部技术专家 导读:作为一支深耕多年链路追踪技术 (Trac...

    文章 阿里巴巴云原生小助手 2019-12-20 461浏览量

  • 八年来我们到底经历了什么?——中间件专家带你“重走”双11高可用架构演进之路

    双11的技术挑战 双11技术挑战的本质使用用有限的成本去是实现最大化的用户体验和集群整体吞吐能力,用最合理的代价解决零点峰值,支撑好业务的狂欢。阿里做双11已经有八年之久了,八年来双11的交易额增长200倍,交易峰值增长400多倍,系统复杂度和大促支撑难度以指数级攀升;并且经过多年的发展,双11技...

    文章 场景研读 2017-08-04 7637浏览量

  • 面向失败的设计-服务能力与依赖调用自我保护

    1. 引言 作为一种架构模式,微服务将复杂系统切分为数十乃至上百个小服务,每个服务负责实现一个独立的业务逻辑。这些小服务易于被小型的软件工程师团队所理解和修改,并带来了语言和框架选择灵活性,缩短应用开发上线时间,可根据不同的工作负载和资源要求对服务进行独立缩扩容等优势。另一方面,当应用被拆...

    文章 KB小秘书 2019-11-08 451浏览量

  • 2017双11技术揭秘—双十一海量数据下EagleEye的使命和挑战

    作者:王华锋(水彧) 背景 双十一一直是阿里巴巴集团每年要打的一场大战役。要打赢这场战役,技术上,不仅仅是几个应用、几个系统的事,也不是多少个开发+多少个测试就能完成的事,而是需要各大系统协同作战、每个应用各司其职、技术人员通力合作才能取得最终的胜利。 EagleEye作为阿里集团老牌的链路跟踪系...

    文章 中间件小哥 2017-12-26 4853浏览量

  • 稳定性保障6步走:高可用系统大促作战指南!

    作者 | 雍雍来源 | 阿里技术公众号一 前言年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我...

    文章 开发者小助手_LS 2021-03-08 1519浏览量

  • “玄惭大师”谈双十一活动中云数据库保障经验

    对不少商家而言,双 11 销量往往是平时的N倍。 云数据库如何从容应对双 11 当日的流量高峰? 今天,特别邀请到 ApsaraDB 团队的大牛级人物玄惭和大家分享,结合历年双十一活动中云数据库保障经验,从弹性扩容、访问链路、架构设计、高可用配置、参数优化等五个方面详解讲解云数据库大流量峰值保障的...

    文章 知与谁同 2017-06-05 1731浏览量

  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    作者|吴白出品|阿里巴巴新零售淘系技术部 服务端问题排查对开发而言是家常便饭,问题并不可怕但要花大量时间去处理;另一方面故障的快速解决至关重要。 目前问题排查最大的障碍是什么呢?我们认为有以下几个原因: 大量的告警信息。 链路的复杂性。 排查过程繁复。 依赖经验。 实际工作中的排查思路并非无迹...

    文章 淘系技术 2019-08-29 2553浏览量

  • 如何做好一名稳定性SRE--业务团队系统稳定性的思与行

    前言 2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8年里,我先后在菜鸟、天猫、盒马从事中间件、业务系统、架构等方面的工作,期间一直穿插着负责稳定性和大促的保障工作。我的心态,大致经历过以下几个阶段: low:完全不懂,觉得稳定性就...

    文章 茶什i 2020-10-26 2254浏览量

  • 云原生高可用技术体系构建

    以下是视频内容的精华整理。 伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级飞速增长,也给互联网业务的技术架构带来了严峻挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布...

    文章 영~ 2020-06-18 339浏览量

  • 一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

    作者:闲鱼技术-吴白 引言 服务端问题排查(服务稳定性/基础设施异常/业务数据不符合预期等)对于开发而言是家常便饭,问题并不可怕,但是每天都要花大量时间去处理问题会很可怕;另一方面故障的快速解决至关重要。那么目前问题排查最大的障碍是什么呢?我们认为有几个原因导致:1) 大量的告警信息。2) 链路的...

    文章 闲鱼技术 2019-07-24 11601浏览量

  • 分布式调用跟踪与监控实战

    分布式调用系统的现状 当前,随着互联网架构的扩张,分布式系统变得日趋复杂,越来越多的组件开始走向分布式化,如微服务、消息收发、分布式数据库、分布式缓存、分布式对象存储、跨域调用,这些组件共同构成了繁杂的分布式网络。 如上图右侧所示,当应用A发出某个请求时,其背后可能有数十个甚至更多的服务被调用,...

    文章 场景研读 2017-05-03 13050浏览量

  • 分布式系统架构技术分析(二)

    原创声明:本文系作者原创,谢绝个人、媒体、公众号或网站未经授权转载,违者追究其法律责任。 在前一篇《分布式系统架构技术分析(一)》中,我们已经对分布式系统的主要特征、组成要素及运行机制进行了初步的分析。当然,真实构建和运行一个分布式系统涉及的细节要比文章中阐述的复杂很多,如何保障大型分布式系统的...

    文章 初商 2019-08-03 562浏览量

  • 打造立体化监控体系的最佳实践

    1. 分布式调用系统的现状 当前,随着互联网架构的扩张,分布式系统变得日趋复杂,越来越多的组件开始走向分布式化,如微服务、消息收发、分布式数据库、分布式缓存、分布式对象存储、跨域调用,这些组件共同构成了繁杂的分布式网络。 如上图右侧所示,当应用A发出某个请求时,其背后可能有数十个甚至更多的服务被...

    文章 中间件小哥 2017-05-08 7123浏览量

  • Hologres助力飞猪双11实时数据大屏秒级响应

    摘要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本文重点介绍Hologres如何落地阿里巴巴飞猪实时数仓场景...

    文章 May-Hologres 2020-11-26 13130浏览量

  • 前浪:传统数据中心的网络模型

    个推运维平台高级网络工程师 山川 随着互联网公司规模的扩大,企业对成本控制和数据安全的需求越来越高,大部分公司往往会自建机房,而非租用云服务器。个推在互联网数据中心(Internet Data Center,简称IDC)网络规划和运营方面也经历了几次的迭代和变迁,同时,我们也对数据中心网络发展的历...

    文章 个推 2020-10-10 895浏览量

  • 老司机的双11手记:这么牛的阿里云数据库,你造怎么用吗?

    老司机的双11手记 2016年天猫双11购物狂欢节已经完美落下帷幕,高峰期间订单创建每秒达到了XX万笔,总订单量达到了XX亿,技术指标再次刷新世界纪录。其中XX%的订单通过聚石塔订单推送,并在阿里云云数据库服务(AliCloudDB,曾称RDS)中完成存储和处理。在持续高压力冲击下,整个双11期间...

    文章 阿里云头条 2016-11-19 5020浏览量

  • 打造立体化监控体系的最佳实践——分布式调用跟踪和监控实践

    摘要: 本文将从分布式系统调用的复杂现状说起,具体分析调用链的三大使用场景,以及调用链的最佳实践,简述如何将调用链作为排查问题的核心,通过其可以将各类数据关联在一起,提高问题排查能力。 【最新快讯】EDAS上线方法追踪新特性,打通应用诊断的"最后一公里"。 1. 分布式调用系统的现状 当前,随着互...

    文章 银时 2017-05-31 14643浏览量

  • 历年双11实战经历者:我们是如何做数据库性能优化及运维-CloudDBA和天象

    8月24日阿里云数据库技术峰会上,阿里云高级DBA专家玄惭带来面对超大规模的数据库集群,尤其是在每年像双11这样重大促销活动中,阿里云是如何进行运维和优化的。本文主要介绍了天象和CloudDBA两个产品,包括他们的起源、基于系统画像仓库的应用、产品化等,最后对RDS产品的可诊断性建设和可运维性建设...

    文章 场景研读 2017-09-07 9836浏览量

  • 使用云监控和函数计算,秒级恢复故障

    云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。 试想这样一个场景: 当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。 如何做到? 云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管...

    文章 裴旻 2018-08-06 10464浏览量

  • 云原生高可用技术体系的构建

    伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级也在飞速增长,给互联网业务的技术架构带来了严峻的挑战,原来的“一体机+数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始向分布式架构和云原生架构演进。同时,原来单一的技术环境开始走向分布式、分层的多组件技术架构...

    文章 中间件小哥 2020-07-20 785浏览量

  • 《私有云计算整合、虚拟化和面向服务的基础设施》一2.6统一数据中心光纤

    2.6统一数据中心光纤 透彻了解L2技术演化的实质后,我们该接着进入到下一课程—光纤模块。从私有云计算以及SOI角度出发,我们在该模块所获得的东西是DC光纤的统一。换句话说,也就是以太网和FC必须形成一个完整的光纤而非两个相互孤立的互联。为了实现该目标,必须对互联技术做一定优化或扩展。自2008年...

    文章 华章计算机 2017-08-17 1150浏览量

  • 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障这些事

    摘要:本文主要带大家了解服务稳定性的重要性和相关策略。策略大概分两部分,第一方面从架构层面介绍保障服务稳定性的常见策略(限流,降级,隔离,超时,重试和集群)。第二个方面是从流程方面(code review, 压测,灰度和监控)讲解怎么去保证稳定性。 演讲嘉宾简介:信海龙(花名沧龙),十余年的互联网...

    文章 PHP小能手 2019-04-25 2246浏览量

  • 使用云监控和函数计算,秒级恢复故障

    云监控发布新feature,打通事件中心和函数服务,可以实现秒级故障恢复。 试想这样一个场景: 当ecs宕机时,在几秒内实现eip自动迁移至另一个健康的ecs实例,快速故障恢复,避免损失。 如何做到? 云监控之前推出了事件中心,定位于,将阿里云上发生的对用户有影响的事件,集中起来,统一展示,统一管...

    文章 江米 2018-08-07 1592浏览量

1 2 3 4 ... 12 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT