一站式智能运维解决方案,企业系统的隐形守护者

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 数字化时代,创新迭代在加速,体验重要性在提升,IT系统架构在变革,运维数据与事件在爆发。阿里云智能运维解决方案,帮助用户高效定位问题、提升业务体验与洞察、快速创新迭代。

时有爆发的疫情,加速引导着用户观影方式的改变。越来越多的用户习惯将观影模式从线下转移到线下。

疫情作为电影行业的“黑天鹅”,让线下影院陷入沉寂,但是却让网络视频平台焕发新生。多家视频平台公布了2022财年Q4的财报,其用户付费数均呈上涨趋势,亏损同比收窄,有些平台在该财年甚至实现了盈利。

由于疫情管控,大多数用户会优先选择线上观影。由于用户线上观影习惯的养成,因此只要有一部电影爆火,就会为平台带来巨大的用户群与营收增长。

但一部部接连爆火的电影,也加速了南瓜电影对于技术升级的思考。

在2021年3月,南瓜用户注册量暴增,日增用户数超800万。流量入口、API、网关等接连告警,紧接着后端服务器、数据库等容量开始吃紧,紧急全链路扩容。虽然最后业务恢复,但整个运维过程花费4小时。

业务高速发展 VS 系统运维带来的压力
作为一家专注于影视精品化运营的垂直类视频的公司,南瓜电影一开始就将自己的系统放在云上。早期业务量不大,遇到故障时会选择手动对不同的服务器进行重新发布。随着业务发展,时常会出现某部影片爆火的情况,用户流量激增,服务器扩容速度缓慢,出现卡顿、报错等情况。

尤其在排查问题过程中,不好定位服务器错误,本地文件过长,数据查询与错误定位成为影响运维效率的最大障碍。

南瓜电影也曾尝试过自建运维系统,希望能系统化地解决当前所面临的运维难题。但在实际操作过程中,南瓜电影发现他们面临着以下几个难点:

首先是成本与时间投入过长,南瓜电影曾尝试过自建K8s的方案,虽然能很好地解决高密部署的难题,但K8s学习与时间成本过高,简单搭环境做测试问题不大,但正儿八经地上线生产,还是需要组建一支专业团队,想要在短期内实现相对困难。

其次是数据丢失过多,用户使用场景不同,数据接口不同且终端环境网络复杂,日志数据丢失量非常高。采集到的数据量过少,无法提供给机器进行高效的告警训练。即便后期通过技术手段,解决了数据丢失的问题,但庞大的日志数据量也会对南瓜电影的数据存储和计算平台造成强大的冲击,无法有效地利用采集到的数据。

利用阿里云构建智能运维系统
经过慎重的考虑,南瓜电影决定与阿里云进行深度合作,利用阿里云日志服务SLS构建一套智能运维系统。

首先要解决的是数据采集的问题。针对南瓜电影数据采集丢失率高的问题,阿里云日志服务SLS为其提供数据实时采集的能力,实现视频播放质量全程实时监控。帮助南瓜电影能时刻感知用户体验情况,对异常数据进行监管告警,及时发现崩溃率变化,让南瓜电影以最快的速度定位问题点,实现最快的故障排查与故障修复。

其次是数据处理的问题。依托日志服务SLS平台,阿里云为南瓜电影提供了免运维、高性能的日志数据存储和查询服务。可支持PB级数据实时查询与分析,提供10多种查询运算符、10多种机器学习函数、100多个SQL函数。同时日志服务SLS支持通过统计图表的方式对查询和分析结果进行可视化展示,减少南瓜电影在数据整体处理链路上消耗的精力。

第三个是成本的问题。阿里云日志服务SLS提供的智能运维解决方案,提供各类API接口,南瓜电影可开箱即用。其弹性拓展能力,能让南瓜电影根据实际业务需求,调整最优的资源配比。一站式按量付费的模式,无需自建多套系统,相比传统方式具有更高的的性价比。

L1VzZXJzL3diLWxibDQ0MjE1MWFsaWJhYmEtaW5jLmNvbS9MaWJyYXJ5L0FwcGxpY2F0aW9uIFN1cHBvcnQvaURpbmdUYWxrLzQ4OTQyOTg2N192Mi9JbWFnZUZpbGVzLzE2NTUzNTEzOTE4MzlfM0E1QjUwQkItNUU4Ni00RjJDLUJDNkItOEU1NUVBNTE0RkQ1LnBuZw==.png

小结
有调查显示,在传统架构下,很多企业将大约80%的精力花在了自身并不擅长、属于成本范畴的繁杂IT运维事务上。而创造价值的应用本身只投入了20%的精力。

而阿里云日志服务SLS构建的智能运维解决方案,是经过阿里巴巴经济体磨砺的解决方案。利用大数据为企业日常运维服务,通过可观测数据融合、智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。

image.png

数字化时代,创新迭代在加速,体验重要性在提升,IT系统架构在变革,运维数据与事件在爆发。阿里云智能运维解决方案,帮助用户高效定位问题、提升业务体验与洞察、快速创新迭代。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
1月前
|
人工智能 运维 自然语言处理
别再靠“救火”过日子了:智能运维,正在重塑IT服务的未来
别再靠“救火”过日子了:智能运维,正在重塑IT服务的未来
248 15
|
1月前
|
存储 人工智能 运维
日志服务&云监控全新发布,共筑企业智能运维新范式
阿里云推出Operation Intelligence新范式,通过日志服务SLS与云监控2.0,实现从感知、认知到行动闭环,推动运维迈向自决策时代。
217 1
日志服务&云监控全新发布,共筑企业智能运维新范式
|
1月前
|
存储 人工智能 运维
别再靠脚本“救火”了!让智能数据治理接管你的运维世界
别再靠脚本“救火”了!让智能数据治理接管你的运维世界
191 14
|
1月前
|
机器学习/深度学习 数据采集 运维
别等系统崩了才救火:智能化运维,才是真正的高可用!
别等系统崩了才救火:智能化运维,才是真正的高可用!
211 8
|
1月前
|
传感器 人工智能 运维
拔俗AI巡检系统:让设备“会说话”,让隐患“早发现”,打造更安全高效的智能运维
AI巡检系统融合AI、物联网与大数据,实现设备7×24小时智能监测,自动识别隐患并预警,支持预测性维护,提升巡检效率5倍以上,准确率超95%。广泛应用于工厂、电力、交通等领域,推动运维从“被动响应”转向“主动预防”,降本增效,保障安全,助力数字化转型。(238字)
|
1月前
|
人工智能 运维 监控
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
122 17
|
6月前
|
数据采集 机器学习/深度学习 人工智能
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
618 0
|
3月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
252 11
|
5月前
|
机器学习/深度学习 人工智能 运维
运维不背锅,从“自动修锅”开始:AI自动化运维是怎么回事?
运维不背锅,从“自动修锅”开始:AI自动化运维是怎么回事?
382 49
|
4月前
|
运维 Prometheus 监控
系统崩了怪运维?别闹了,你该问问有没有自动化!
系统崩了怪运维?别闹了,你该问问有没有自动化!
166 9