一站式智能运维解决方案,企业系统的隐形守护者

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 数字化时代,创新迭代在加速,体验重要性在提升,IT系统架构在变革,运维数据与事件在爆发。阿里云智能运维解决方案,帮助用户高效定位问题、提升业务体验与洞察、快速创新迭代。

时有爆发的疫情,加速引导着用户观影方式的改变。越来越多的用户习惯将观影模式从线下转移到线下。

疫情作为电影行业的“黑天鹅”,让线下影院陷入沉寂,但是却让网络视频平台焕发新生。多家视频平台公布了2022财年Q4的财报,其用户付费数均呈上涨趋势,亏损同比收窄,有些平台在该财年甚至实现了盈利。

由于疫情管控,大多数用户会优先选择线上观影。由于用户线上观影习惯的养成,因此只要有一部电影爆火,就会为平台带来巨大的用户群与营收增长。

但一部部接连爆火的电影,也加速了南瓜电影对于技术升级的思考。

在2021年3月,南瓜用户注册量暴增,日增用户数超800万。流量入口、API、网关等接连告警,紧接着后端服务器、数据库等容量开始吃紧,紧急全链路扩容。虽然最后业务恢复,但整个运维过程花费4小时。

业务高速发展 VS 系统运维带来的压力
作为一家专注于影视精品化运营的垂直类视频的公司,南瓜电影一开始就将自己的系统放在云上。早期业务量不大,遇到故障时会选择手动对不同的服务器进行重新发布。随着业务发展,时常会出现某部影片爆火的情况,用户流量激增,服务器扩容速度缓慢,出现卡顿、报错等情况。

尤其在排查问题过程中,不好定位服务器错误,本地文件过长,数据查询与错误定位成为影响运维效率的最大障碍。

南瓜电影也曾尝试过自建运维系统,希望能系统化地解决当前所面临的运维难题。但在实际操作过程中,南瓜电影发现他们面临着以下几个难点:

首先是成本与时间投入过长,南瓜电影曾尝试过自建K8s的方案,虽然能很好地解决高密部署的难题,但K8s学习与时间成本过高,简单搭环境做测试问题不大,但正儿八经地上线生产,还是需要组建一支专业团队,想要在短期内实现相对困难。

其次是数据丢失过多,用户使用场景不同,数据接口不同且终端环境网络复杂,日志数据丢失量非常高。采集到的数据量过少,无法提供给机器进行高效的告警训练。即便后期通过技术手段,解决了数据丢失的问题,但庞大的日志数据量也会对南瓜电影的数据存储和计算平台造成强大的冲击,无法有效地利用采集到的数据。

利用阿里云构建智能运维系统
经过慎重的考虑,南瓜电影决定与阿里云进行深度合作,利用阿里云日志服务SLS构建一套智能运维系统。

首先要解决的是数据采集的问题。针对南瓜电影数据采集丢失率高的问题,阿里云日志服务SLS为其提供数据实时采集的能力,实现视频播放质量全程实时监控。帮助南瓜电影能时刻感知用户体验情况,对异常数据进行监管告警,及时发现崩溃率变化,让南瓜电影以最快的速度定位问题点,实现最快的故障排查与故障修复。

其次是数据处理的问题。依托日志服务SLS平台,阿里云为南瓜电影提供了免运维、高性能的日志数据存储和查询服务。可支持PB级数据实时查询与分析,提供10多种查询运算符、10多种机器学习函数、100多个SQL函数。同时日志服务SLS支持通过统计图表的方式对查询和分析结果进行可视化展示,减少南瓜电影在数据整体处理链路上消耗的精力。

第三个是成本的问题。阿里云日志服务SLS提供的智能运维解决方案,提供各类API接口,南瓜电影可开箱即用。其弹性拓展能力,能让南瓜电影根据实际业务需求,调整最优的资源配比。一站式按量付费的模式,无需自建多套系统,相比传统方式具有更高的的性价比。

L1VzZXJzL3diLWxibDQ0MjE1MWFsaWJhYmEtaW5jLmNvbS9MaWJyYXJ5L0FwcGxpY2F0aW9uIFN1cHBvcnQvaURpbmdUYWxrLzQ4OTQyOTg2N192Mi9JbWFnZUZpbGVzLzE2NTUzNTEzOTE4MzlfM0E1QjUwQkItNUU4Ni00RjJDLUJDNkItOEU1NUVBNTE0RkQ1LnBuZw==.png

小结
有调查显示,在传统架构下,很多企业将大约80%的精力花在了自身并不擅长、属于成本范畴的繁杂IT运维事务上。而创造价值的应用本身只投入了20%的精力。

而阿里云日志服务SLS构建的智能运维解决方案,是经过阿里巴巴经济体磨砺的解决方案。利用大数据为企业日常运维服务,通过可观测数据融合、智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。

image.png

数字化时代,创新迭代在加速,体验重要性在提升,IT系统架构在变革,运维数据与事件在爆发。阿里云智能运维解决方案,帮助用户高效定位问题、提升业务体验与洞察、快速创新迭代。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2天前
|
弹性计算 运维 监控
基于进程热点分析与系统资源优化的智能运维实践
智能服务器管理平台提供直观的可视化界面,助力高效操作系统管理。核心功能包括运维监控、智能助手和扩展插件管理,支持系统健康监控、故障诊断等,确保集群稳定运行。首次使用需激活服务并安装管控组件。平台还提供进程热点追踪、性能观测与优化建议,帮助开发人员快速识别和解决性能瓶颈。定期分析和多维度监控可提前预警潜在问题,保障系统长期稳定运行。
40 17
|
2天前
|
存储 运维 监控
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台是一款创新的云服务器运维工具,采用智能化和可视化方式简化运维工作。通过AI技术实时监控服务器状态,自动分析性能瓶颈和故障原因,生成详细的诊断报告与优化建议。用户无需复杂命令行操作,仅需通过图形化界面即可高效处理问题,降低技术门槛并提升故障处理效率。尤其在服务器宕机等紧急情况下,智能诊断工具能快速定位问题根源,确保业务稳定运行。此外,控制台还提供内存、存储、网络等专项诊断功能,帮助用户全面了解系统资源使用情况,进一步优化服务器性能。这种智能化运维方式不仅提升了工作效率,也让个人开发者和企业用户能够更专注于核心业务的发展。
|
10天前
|
运维 自然语言处理 算法
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
|
10天前
|
运维 Kubernetes Cloud Native
云栖实录 | 智能运维:云原生大规模集群GitOps实践
云栖实录 | 智能运维:云原生大规模集群GitOps实践
|
9天前
|
消息中间件 运维 安全
云消息队列 ApsaraMQ Serverless 演进:高弹性低成本、更稳定更安全、智能化免运维
云消息队列 ApsaraMQ Serverless 演进:高弹性低成本、更稳定更安全、智能化免运维
|
10天前
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
云栖实录 | 智能运维年度重磅发布及大模型实践解读
|
5月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
112 4
|
2月前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
|
2月前
|
Linux 持续交付 调度
HTTPS 证书自动化运维:https证书管理系统-自动化部署
本指南介绍如何部署Linux服务器节点。首先复制生成的Linux脚本命令,然后将其粘贴到目标服务器上运行。接着刷新页面查看节点记录,并点击“配置证书”选择证书以自动部署。最后,节点部署完成,后续将自动调度,无需人工干预。
HTTPS 证书自动化运维:https证书管理系统-自动化部署
|
2月前
|
运维
HTTPS 证书自动化运维:https证书管理系统之自动化签发
通过访问【https://www.lingyanspace.com】注册账户,进入证书服务菜单并新增证书。填写域名(单域名、多域名或泛域名),创建订单后添加云解析DNS记录进行质检。确认完成后可下载证书,并支持后续查看、更新和定时更新功能。证书过期前15天自动更新,需配置邮箱接收通知。
HTTPS 证书自动化运维:https证书管理系统之自动化签发