看畅捷通如何利用阿里云快速定位异常,降低运维成本

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 阿里云通过日志服务综合解决方案,帮助畅捷通运维开发团队解决了误报频繁、无法快速发现问题站点、无法快速定位异常的问题,实现了运维效率、运维成本、沟通成本等方面的改善。支撑了畅捷通所有云产品的健康稳定运行,在IT运维开发领域树立了一个标杆。

更多存储标杆案例
欢迎点击下方链接查看

阿里云存储标杆案例样板间

公司介绍
畅捷通是用友旗下成员企业,为400多万小微企业提供智能云管理服务,公司于2010年3月成立,并与2014年6月在香港联交所主板挂牌上市。

畅捷通以“用创想与技术,推动小微企业经营与管理进步「为使命,以成为“全球领先的小微企业云服务、软件提供商」、「伙伴、员工快乐工作,成就事业,分享成功的平台」为愿景,致力于为中国小微企业提供以财务及管理服务为核心的:平台服务、应用服务、数据增值服务。

目前公司主营云产品包括畅捷通好会计、T+Cloud、畅捷通好生意、畅捷通易代账等,主营软件产品包括T系列软件。2019年度云服务企业注册用户数达到466万,累计付费企业用户数达到15.7万。软件业务累计企业用户数超过161万。

image.png

业务场景介绍
畅捷通IT运维开发部负责畅捷通包括好会计、好生意、易代账等所有云产品生产及测试系统的运维、上线发布等工作。该部门构建了一套MIDAS智能运维平台,提供了数据接入,数据处理和场景化分析的能力。

畅捷通智能运维平台的业务模型:

image.png

面临的痛点
畅捷通在智能运维平台开发初期,底层使用了自建的ELK进行运维数据分析,但是随着畅捷通业务的增长接入的应用系统增多,很快发现平台出现各种问题,各产品的稳定运行收到极大挑战,主要表现为如下几方面:

并发量大,优化ELK成本过高
几万个点同时并发发送数据,每天产生的各种日志与消息达到TB级。自建的ELK系统性能较差,优化性能需要耗费大量开发资源。类型杂,数据清洗难度大,访问类、系统类、应用类、通知、消息类等等,种类繁多、格式千奇百怪,为数据清洗增加了巨大的难度。

来源多,无法集中管理

网络、服务器、移动app、web、docker等各种来源的日志,接口繁多,并且要求实时性高,无法集中统一管理。

产品部门深度参与,重口难调
各产品部门也会对对收集来的数据都有着自己个性化的需求,监控报警、问题诊断、分析挖掘、报表等,消费模式也多种多样。

image.png

阿里云日志服务解决方案
畅捷通面对这些问题,选择使用阿里云日志服务作为基础来深度打造其智能运维平台,整个平台由如下三大模块构成:

高效消息采集和传输
利用阿里云日志服务的强大的数据接入能力,将畅捷通混合云架构中网络、服务器、移动端、容器的各类访问类、系统类、应用类、消息类等各类日志统一汇入日志平台,提供实现每日TB级数据的快速处理。

灵活的数据处理和存储
针对畅捷通内部已经具备完善CMDB和关联规则的情况,将原始日志进行语意切分和序列化后,对应到场景分析中。在策略组里找到相应的执行策略,再发到外部服务中,用外部服务去调用ansible或者消息转发等操作,实现对数据投递的集中管理,为后续众多场景化分析提供有力支撑。

智能异常检测和定位
过日志服务的时序数据分析与函数计算的能力,畅捷通构建了智能运维平台,通过直接使用阿里云服务的同环比函数,可以快速的得出监控指标的当前值,并且具有实时性。有了同环比后,报警的发送会变得准确,与原来的阈值相比准确性大大提高。
通过异常预测函数,可以从海量指标中快速定位异常,通过异常检测方法将有问题的地方显示出来,快速发现系统故障。
另外将各块汇集过来的数据进行标记后,能够与应用的配置信息进行关联和整合,通过时序可以发现故障的根因,从而可以实现故障预测。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
15天前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
51 1
|
30天前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
57 3
|
1月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
2月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
82 6
阿里云日常运维-购买服务器
|
2月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
98 4
|
3月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
114 3
|
3月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
153 1
|
3月前
|
运维 Cloud Native 容灾
核心系统转型问题之云原生分布式核心运维成本如何降低
核心系统转型问题之云原生分布式核心运维成本如何降低
|
3月前
|
运维 前端开发 Serverless
中后台前端开发问题之降低数据库使用门槛和运维成本如何解决
中后台前端开发问题之降低数据库使用门槛和运维成本如何解决
30 0
|
3月前
|
运维 安全 网络协议
运维.索引引擎ElasticSearch.记录一个小异常:received plaintext http traffic on an https channel
运维.索引引擎ElasticSearch.记录一个小异常:received plaintext http traffic on an https channel
259 0