告警状态常见故障

  • 云服务器 ECS 监控:使用云监控监控ECS实例

    使用云监控监控ECS实例 本文以某门户网站的监控设置为例,讲解云监控服务如何给业务系统做实时护航。主要内容 监控的必要性 云监控配置 监控的必要性 越来越多的用户选择将业务部署在云上,大大减轻了运维成本和压力,其中合理的监控设置功不可没,设置合理的监控不仅可以让用户实时了解系统业务的运行情况...

    文章 琴瑟 2017-08-15 3871浏览量

  • AI助力日志中心智能化运营

    摘要:AIOps将人工智能应用于运维领域,基于已有的运维数据通过机器学习的方式来进一步解决自动化运维无法解决的问题。运维数据包含海量的日志数据,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。本文将主要介绍日志易在AIOps方面如何做出智能的日志中心以及日志在IT领域中发挥的价值。 ...

    文章 sherlding 2018-06-23 9895浏览量

  • 日志系统的 AIOps 应用,及日志易智能日志中心运营之道

    本文将主要介绍日志在 IT 领域中发挥的价值,以及日志易在 AIOps 方面如何做出的智能日志中心。 以下内容根据日志易产品总监饶琛琳在 2018 云栖大会的演讲整理而成。小编看到这个有意思的分享,忍不住再次拿来翻新,以求和大家共同吸取其中的价值。 本次的分享主要围绕以下三个方面: 1.智能日志中...

    文章 技术小能手 2018-11-23 1491浏览量

  • 阿里云试用中心,为您提供0门槛上云实践机会!

    0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

    广告

  • 日志易饶琛琳分享:AI 助力日志中心智能化运营

    摘要:AIOps 将人工智能应用于运维领域,基于已有的运维数据通过机器学习的方式来进一步解决自动化运维无法解决的问题。运维数据包含海量的日志数据,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。本文将主要介绍日志易在 AIOps 方面如何做出智能的日志中心以及日志在 IT 领域中发挥的...

    文章 日志易 2018-09-25 1876浏览量

  • 开源监控利器Prometheus初探

    前言: Kubernetes作为当下最炙手可热的容器管理平台,在给应用部署运维带来便捷的同时,也给应用及性能监控带来了新的挑战。本文给大家分享一款十分火热的开源监控工具Prometheus,让我们一起来看它是如何兼顾传统的应用监控、主机 性能监控和Kubernetes监控的。 目录: 一、Prom...

    文章 店家小二 2018-12-18 1773浏览量

  • 闲鱼神探——线上问题定位与快速解决

    作者:闲鱼技术-迎墨 神探产品定位 神探是一款面向服务端稳定性问题自动定位并辅助快速解决故障的线上排查工具。软件工程领域存在一个共识:维护代码所花费的时间要远多于写代码。而整个代码维护过程中,最惊心动魄与扣人心弦的部分,莫过于问题排查,线上问题持续发生,带来的问题,一方面是大量时间投入和繁复操作,...

    文章 闲鱼技术 2020-07-28 736浏览量

  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的智能化之路

    阿里巴巴资深技术专家后羿 后羿:大家好,首先给大家呈现的是阿里巴巴在双11中主要依赖的网络相关技术。在今年双11中我们在稳定性、高性能网关、去堆叠以及25G、骨干网流量调度平台、流量的精准评估、QOS优化和成本优化方面都取得了突破性的进展。 助力双11的重要网络技术 在稳定性的强化方面,在过去一年...

    文章 技术小能手 2018-01-05 4629浏览量

  • 基础设施助力双11(十):百万级物理和虚拟网络设备的智能化之路

    导言 后羿:阿里巴巴资深技术专家,参与8年双11大战,主导阿里“去IOE”战略落地,目前在推动阿里基础设施智能化。 后羿此次给大家分享的是双11的智能化网络实践,关于如何在网络智能领域通过数据手段极致地优化运营场景,在稳定性、成本、效率方面提升网络运营竞争力,给大家呈现了阿里巴巴在双11中主要依赖...

    文章 初商 2019-07-31 750浏览量

  • 服务挂了,怎么自动恢复?

    大家或许都碰到过这样的情况: tomcat挂了,站点应用访问不了 service出core了,服务挂了 架构设计上,避免单点,使用故障自动转移固然能够保证系统的高可用,是否还有其他的方案,让挂掉的服务自动启动呢,这里给大伙推荐一个常见的运维工具 supervisor。 画外音:supervis...

    文章 初商 2019-08-10 583浏览量

  • Node.js 应用故障排查手册 —— Node.js 性能平台使用指南

    楔子 前一节中我们借助于 Chrome devtools 实现了对线上 Node.js 应用的 CPU/Memory 问题的排查定位,但是在实际生产实践中,大家会发现 Chrome devtools 更加偏向本地开发模式,因为显然 Chrome devtools 不会负责去生成分析问题所需要的 D...

    文章 hyj1991 2019-03-23 1479浏览量

  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化实践

    12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《双11的智能化网络实践》演讲整理,主要讲解了阿里巴巴在网络智能化技术中,大量级网络下网络变更、调度优化技术的大幅度提升,故障快速发现、定位、恢...

    文章 zengzengzeng 2017-12-14 1753浏览量

  • 云服务器 ECS 监控:监控ECS实例

    监控ECS实例 一般来说,在本地数据中心我们会对基础设施进行监控,其中包括对主机实例的监控,以便系统地和随时地了解资源使用情况和性能变化,在出现性能瓶颈的时候合理地调配资源,或者在发生故障时追溯原因等等。 在阿里云上,ECS实例也承载着我们的业务应用,ECS实例的资源使用情况和性能负载直接影响着...

    文章 琴瑟 2017-08-14 4339浏览量

  • Oracle数据库运维场景下,智能运维如何落地生根?

    导语 从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求。 从人工运维到自动化运维是为了减少人力成本,降低操作风险,提高运维效率,但自动化运维的本质依然是人与自动化工...

    文章 袋鼠云 2020-08-11 86浏览量

  • spark面试该准备点啥

    本文转载自公众号: Spark学习技巧作者:浪尖原文链接:https://mp.weixin.qq.com/s/xcQOL2HyNB8Ro7QChu6Ngw 最近很多球友都说在准备面试,不知道准备点啥,尤其是spark,实际上浪尖分享的内容真的都掌握了,应对一般面试绝对没问题,但是遗憾的事情是很...

    文章 阿里云E-MapReduce团队 2020-04-15 495浏览量

  • Node.js 应用故障排查手册 —— 大纲与常规问题指标简介

    楔子 你是否想要尝试进行 Node.js 应用开发但是又总听人说它不安全、稳定性差,想在公司推广扩张大前端的能力范畴和影响又说服不了技术领导。 JavaScript 发展到今天,早已脱离原本浏览器的战场,借助于 Node.js 的诞生将其触角伸到了服务端、PC 跨平台客户端方案等各个领域,但是与此...

    文章 hyj1991 2019-03-23 1107浏览量

  • 怎样管理Lotus Domino

    一个从事3年以上Lotus Domino的维护人员才能比较娴熟的处理一些复杂的问题,除了Lotus Domino以外,对于Lotus Domino所部署的主机操作系统,也要非常精通才行,因为一些大型的Lotus Domino系统必须依赖性能很强的Unix操作系统(Solaris或AIX等)。而有时...

    文章 技术小美 2017-11-09 1963浏览量

  • 谈谈互联网后端基础设施

    纵观整个互联网技术体系再结合公司的目前状况,个人认为必不可少或者非常关键的后端基础技术/设施如下图所示: Api网关 业务应用和后端基础框架 缓存、数据库、搜索引擎、消息队列 文件存储 统一认证中心 单点登录系统 统一配置中心 服务治理框架 统一日志服务 数据基础设施 故障监控 这里的...

    文章 jurassic_1 2016-12-09 4897浏览量

  • 谈谈互联网后端基础设施

    本文更新于2016.12.12, 加入了扩展章节 对于一个互联网企业,后端服务是必不可少的一个组成部分。抛开业务应用来说,往下的基础服务设施做到哪些才能够保证业务的稳定可靠、易维护、高可用呢?纵观整个互联网技术体系再结合公司的目前状况,个人认为必不可少或者非常关键的后端基础技术/设施如下图所示: ...

    文章 微wx笑 2018-01-15 1097浏览量

  • 负载均衡进阶:SLB常见问题解决方法

    摘要:在由云栖社区和阿里云网络团队联合主办的2017阿里云网络技术在线高峰论坛上,阿里云技术专家添毅分享了网络产品部根据客户和阿里云运维的反馈提炼出的几大最主要和最常见的在使用SLB产品中发生的问题,并为大家介绍了针对这些常见问题的相应处理方法。想知道如何借助SLB构建高可用系统以及健康检查是如何...

    文章 场景研读 2017-10-09 9698浏览量

  • ECS事件通知之快照创建完成事件

    创建快照是ECS运维的常见操作。在发生故障或者误操作后,最近的一份磁盘快照将是系统管理员的救命稻草。尤其是数据误删除,阿里云为保证用户数据安全,对用户主动删除的数据是无法提供恢复手段的。定期创建快照作为数据备份是使用ECS的一个最佳实践。 快照创建完成事件 创建快照有可能很耗时,比如大磁盘首次创建...

    文章 betabao 2019-05-10 574浏览量

  • 匪夷所思:罕见的 Oracle 全局事务锁等待事件分析

    这是在某客户现场的一次即时分析,这个问题困扰了用户一段时间,数据库体现为严重的性能问题,导致应用出现大范围超时以及会话激增等问题,多次尝试 kill session 都无法彻底解决问题,重启后系统恢复正常。 拿到故障时刻的 AWR 报告,可以发现问题时刻,数据库的主要等待为: Global tra...

    文章 技术小能手 2018-11-12 2138浏览量

  • 揭秘双11丝滑般剁手之路背后的网络监控技术

    概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换...

    文章 May-Hologres 2020-11-23 2828浏览量

  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生时代”的全面升级

    本文节选自《不一样的 双11 技术:阿里巴巴经济体云原生实践》一书 作者:周小帆(承嗣)  阿里云中间件技术部高级技术专家王华锋(水彧)  阿里云中间件技术部技术专家徐彤(绍宽)  阿里云中间件技术部技术专家夏明(涯海)  阿里云中间件技术部技术专家 导读:作为一支深耕多年链路追踪技术 (Trac...

    文章 阿里巴巴云原生小助手 2019-12-20 355浏览量

  • K8s 应用管理之道 - 有状态服务

    背景 用户通过 Deployment、ReplicationController 可以方便地在 kubernetes 中部署一套高可用、可扩展的分布式无状态服务。这类应用不在本地存储数据,通过简单的负载均衡策略可实现请求分发。随着 k8s 的普及和云原生架构的兴起,越来越多的人希望把数据库这类有状...

    文章 吴波bruce_wu 2019-02-02 5498浏览量

  • 详解 Flink 指标、监控与告警

    整理:李培殿 & 杨伟海(Flink 社区志愿者)校对:杨伟海(Flink 社区志愿者) 摘要:本文由美团点评研发工程师孙梦瑶分享,主要介绍 Flink 的指标监控和报警的内容,分为以下四部分: 监控告警链路:基于美团点评实时计算平台的实践 常用的监控项:哪些指标可以高效地衡量作业 指...

    文章 阿里云实时计算Flink 2020-07-23 655浏览量

  • 车联网上云最佳实践(二)

    第一篇内容:《车联网上云最佳实践(一)》 二、传统IDC架构介绍及技术详解 俗话说知己知彼百战不殆,我们要上云首先要充分了解自己业务和应用架构。然后在充分了解云上产品的特性,看看哪些产品可以直接被我们使用,哪些是需要我们的应用或架构做出调整的。下面我们来分析下智能车联网平台的相关架构。   1、...

    文章 zkw9527 2018-08-22 2429浏览量

  • Node 案发现场揭秘 —— Core dump 还原线上应用异常

    前言 Node.js 发展到今天,已经被越来越广泛地应用到 BFF 前后端分离 、 全栈开发 、 客户端工具 等领域。然而,相对于应用层的蓬勃发展,其 Runtime 对于绝大部分前端出身的开发者来说,处于黑盒的状态,这一点并没有得到很好的改善,从而也阻碍了 Node.js 在业务中的应用和推广。...

    文章 hyj1991 2018-08-03 1777浏览量

  • 基于MaxCompute/Dataworks实现数据仓库管理与全链路数据体系

    前言   就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术。大数据其实是个...

    文章 隐林 2019-04-28 1795浏览量

  • 企业服务行业如何试水 Istio | Service Mesh Meetup 分享实录

    崔秀龙,HPE 软件分析师,Kubernetes 权威指南作者之一,Kubernetes、Istio 项目成员。本文根据崔秀龙在 2019 广州 Service Mesh Meetup#5 分享整理,完整的分享 PPT 获取方式见文章底部。本文内容收录在崔秀龙的新书:《深入浅出 Istio - S...

    文章 s潘潘 2019-01-11 1036浏览量

  • Serverless下日志采集、存储、分析实践

    Serverless与日志 Serverless,即一种无服务器化的思维,开发者不用过多地考虑传统的服务器采购、硬件运维、网络拓扑、资源扩容等基础设施运行问题,让DevOps人员可以将精力回归到业务本身的创新性、稳定性上来。 在绝大部分场景下,使用Serverless架构是一种双赢的选择: 用户...

    文章 唐恺 2018-10-23 7862浏览量

1 2 3 4 >

云产品推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板