• 走近华佗,解析自动化故障处理系统背后的秘密

    飞天5K项目期间的规模效应凸显出自动化处理故障的必要性,大幅提升了飞天平台的稳定性,提高了运维人员的幸福。华佗在飞天中的位置如图1所示。由来 2011年底和2012年初,飞天系统的通信系统使用的是夸父,夸父通过...
    文章 2016-12-18 4694浏览量
  • 新浪微博瘫痪,有人开心有人哭

    2017,那些我们一起删库跑的日子 你可长点心吧。谁知道下次是不是你。对于从没有用过新浪微博的小编,无法判断此时事情的真相,为了不人云亦云,决定Google一下。结果如下: 原来这已经不是新浪的第一次大的故障了...
    文章 2017-07-17 2091浏览量
  • 为了30分钟配送,盒马工程师都有哪些“神操作”?

    在稳定性知识方面,我们内外结合进行分享,同时将别的team的故障都当做自己的故障来分析原因和查找我们系统的不足。第三故障预防 在系统复杂和业务需求不断导致代码腐化,我们定时对整个系统进行重构,将整个...
    文章 2019-03-19 5623浏览量
  • DockOne微信分享(一零七):SRE工程实践——基于时间...

    当系统无法自动修复某个问题时,需要一个人来调查这项警报,以决定目前是否存在真实故障,采取一定方法缓解故障,分析故障现象,最终找出导致故障原因。监控系统应该从两个方面提供故障的信息,即现象和原因。黑盒...
    文章 2017-10-12 1976浏览量
  • 从文艺女到技术咖,一位美女工程师的华丽转身

    我到达现场后先采集所有相关数据不断地让故障原因明朗,再排除法排除所有可疑的点,定位到可疑代码后,开发商认为这个方法从系统开发出来一直是这样没有问题,否认我的观点,我就建议开发商对可疑代码修改测试,模拟...
    文章 2017-05-02 2179浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    这背后需要运维人员对业务深层次的理解,很多维护人员喜欢使用穷举式的手段配上所有可观测性的指标,各种告警加上,显得有“安全”,实际上当故障来临时,满屏出现指标异常、不断增加的告警短信,这样的“可观测性...
    文章 2019-12-20 1043浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    一个不负责任的人,遇到问题与我无关的人,边界太强的人,难以做好稳定性的工作;原则上不要选择新人,对于团队leader而言,“用新人做别人不愿意做的工作”,这个决定比较容易做出,但是这也相当于是把团队的稳定...
    文章 2020-10-26 4468浏览量
  • 阿里毕玄:智能时代,运维工程师在谈什么?

    但是如果你的工具最重要变成能够到自动化这个阶段,就意味着对工具的要求会越来越高,比如说工具的质量,如果你写出来的工具经常有问题,规模一大就扛不住,这会让大家慢慢失去信任,最后会很难完成这个过程。...
    文章 2017-11-24 6089浏览量
  • 阿里毕玄:智能时代,运维工程师在谈什么?

    但是如果你的工具最重要变成能够到自动化这个阶段,就意味着对工具的要求会越来越高,比如说工具的质量,如果你写出来的工具经常有问题,规模一大就扛不住,这个时候对于大家来讲慢慢会越来越失去信任。...
    文章 2017-11-23 2200浏览量
  • 阿里巴巴DevOps实践指南(十九)|监管控一体化运维

    系统宕机、数据异常、数据丢失、删库跑等运维故障和事件层出不穷,这可能给企业带来致命的打击,甚至关乎业务的生死存亡。因此,防范和杜绝高危运维故障是 DevOps 一直不懈追求的目标。在当代众多业务形态和云技术...
    文章 2021-07-06 304浏览量
  • 2021 年云原生技术发展现状及未来趋势

    本周推荐阅读蚂蚁集团 SOFATracer 原理与实践蚂蚁集团万级规模 K8s 集群 etcd 高可用建设之我们做出了一个分布式注册中心还在为多集群管理烦恼吗?OCM来啦!更多文章请扫码关注“金融级分布式架构”公众号
    文章 2021-08-17 102浏览量
  • 为什么这个92年的小哥从实习生到P8级技术Leader只用了...

    “技术风险部存在的意义,就是认真分析每个故障背后的原因,总结出一套规律,避免这一类故障的发生。作为坚守多年的老将,郑洋飞俨然已经是部门内的资深成员,“我就是想证明,一方面我在这里是有成就的,一方面...
    文章 2020-07-09 3653浏览量
  • 阿里巴巴统一运维智能化平台演进之

    StreamCompute已经在阿里云公开对外输出,如果大家对实时计算兴趣,可以到阿里云的官网做试用或者采购。最上面一层实时计算支撑整个阿里的业务,包括搜索、推荐、广告、大屏。整个的开发和应用层是通过阿里计算...
    文章 2018-07-20 2489浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    作者|雍雍来源|阿里技术公众号一 前言年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。...
    文章 2021-03-08 1788浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    ​ASI 单集群规模支撑超过社区的 5000 台,这是个非常有意思且具备极大挑战的事情,对需要进行 K8s 生产化的同学,甚至具备 K8s 生产化经验的同学来说,一定会是个兴趣的话题。回看 ASI 单集群规模从 100 到 10000...
    文章 2021-05-17 701浏览量
  • 核桃编程:前端可观测性建设之

    ARMS前端监控方案之所以能被核桃编程采纳,有一个很重要的原因是方案的接入是非常简单的,唯一要做的事情是在客户端HTML页面的Body元素中加入一段由ARMS提供的统计接入脚本(一段JavaScript代码),就能完成监控数据...
    文章 2021-01-22 4172浏览量
  • 制造业人工智能8大应用场景

    另一方面,面对设备的突发故障,能够迅速进行故障诊断,定位故障原因并提供相应的解决方案。在制造行业应用较为常见,特别是化工、重型设备、五金加工、3C制造、风电等行业。以数控机床为例,用机器学习算法模型和...
    文章 2020-12-17 201浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    数据一致性在分布式处理以及微服务化后,相关联的数据会存在于不同的系统之中,相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因,导致彼此数据出现不一致,这也是一类稳定性故障。...
    文章 2021-01-27 8367浏览量
  • 握手5G,智能交通将迎来四大质变!

    目前车载视频监控主要采用3G/4G网络进行实时回传,由于上行带宽受限、覆盖、时延等原因,视频监控画面质量差、不时有卡顿及马赛克(高峰期),无法达到实时监控及及时发现高危人员的效果,存在一定的安全隐患。...
    文章 2020-06-30 683浏览量
  • 运维工程师的职责和前景

    2、工作中需胆大心细:胆大才能创新、不走寻常,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站 admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱;3、主动性、执行力、...
    文章 2017-11-27 1086浏览量
  • 阿里“去 IOE”十二年,弹性计算如何二次去 I 和 E?

    如果这个地方是个单点,没有双就经常会出现各种各样的问题。阿里云选择在软件侧实现冗余的网络线路路由调度。批量运维变更故障规避技术平台 既然是大规模的云,技术迭代和产品更新背后就会有大量的系统发布和变更...
    文章 2020-06-30 603浏览量
  • Mobileye闯红灯之后,这些问题值得我们深思

    但这件事情告诉我们:自动驾驶汽车行业仍然有很长一段要走。计算机视觉:目前的唯一方法 几个月来,科技公司、Tier 1和汽车厂商一直在谈论“传感器融合”问题,即结合不同的传感器技术,帮助自动驾驶汽车分辨出...
    文章 2018-05-29 1100浏览量
  • 技术解读|完整揭秘网络领域顶会SIGCOMM'20论文 阿里...

    目前该项技术已经在阿里云网络内部大规模普及,效果显著,大大减少了诊断时间,从人为处理的平均几小时下降到分钟级的耗时,现在它已经成为云网络故障排查必不可少的工具,未来将会逐步开放给阿里云用户,让阿里云...
    文章 2020-06-10 1214浏览量
  • 高可用互联网系统稳定性建设实践指南

    相关联的数据库表、数据存储、缓存等数据会因为架构设计或子系统抖动故障失败等原因导致彼此数据出现不一致&xff0c;这也是一类稳定性故障。最简单一致性问题就是关系型数据库的同请求内同库相关联多个数据表更新的...
    文章 2021-09-01 62浏览量
  • 《乘风者周刊》专家博主:葛小虎——愿永远不要停止...

    自学踏上技术之 13年前&xff0c;葛小虎只身从贵阳去辽宁上大学&xff0c;专业是行政管理学。对于很多学子而言&xff0c;走进象牙塔&xff0c;便意味着开启了一段自由自在无拘无束的生活&xff0c;而葛小虎却不想做片刻的放松。他...
    文章 2021-10-27 21460浏览量
  • 阿里云肖力:云即信任

    如果说阿里云与客户之间的关系,经历了从陌生、质疑到尝试、信任的过程,那么在这个过程中,阿里云安全团队的一路相守,则是让用户在使用阿里云的同时,始终有“安全”陪伴的原因。只不过,安全在最初,其实是让云...
    文章 2019-10-15 3421浏览量
  • 技术解读|完整揭秘通信领域顶会SIGCOMM 20’论文 ...

    目前该项技术已经在阿里云网络内部大规模普及,效果显著,大大减少了诊断时间,从人为处理的平均几小时下降到分钟级的耗时,现在它已经成为云网络故障排查必不可少的工具,未来将会逐步开放给阿里云用户,让阿里云...
    文章 2020-06-10 169浏览量
  • 技术解读|完整揭秘通信领域顶会SIGCOMM 20’论文 ...

    目前该项技术已经在阿里云网络内部大规模普及,效果显著,大大减少了诊断时间,从人为处理的平均几小时下降到分钟级的耗时,现在它已经成为云网络故障排查必不可少的工具,未来将会逐步开放给阿里云用户,让阿里云...
    文章 2020-06-10 1491浏览量
  • 妈妈帮上云之:云上平台架构与运维实践

    胡兴邦谈到妈妈帮坚持下来使用MongoDB其实有多方面的原因,一方面其实数据库转型之后往往会带来更多的问题,因为MongoDB与结构化数据根本上就是schema机制不一样,传统的数据库比如MySQL是有严格的schema的,这样...
    文章 2017-02-27 4986浏览量
  • 阿里云自主研发云原生数据库POLARDB的开拓之

    《创新、进化、竞合、开放——阿里云自主研发云原生数据库POLARDB的开拓之》 阿里云ApsaraDB数据库 高级产品专家 贺军 前言 数据库作为信息时代平台科技(CPU/芯片、PC/手机操作系统、数据库)最复杂最核心的技术...
    文章 2018-08-01 7976浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化