阿里云助力东软集团让数字时代运维系统“灵动”起来

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
Lindorm AIGC体验服务,AIGC 体验服务
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2020年,东软集团与阿里云原生多模数据库Lindorm达成合作,围绕运营商、政务云和汽车等行业的新一代数字信息系统IT运维场景,在海量监控数据上存在存储、分析的痛点,进一步扩展应用智能运维产品RealSight APM和云管理产品SaCa Aclome能力,解决了大数据场景下的IT运维难题。

2020年,由于受到疫情影响,越来越多的政企开始意识到线上办公系统稳定的重要性,同时现在互联网化的信息服务繁荣发展为政府、企业数字系统运维应用维稳和客户数字体验保障提出了更高要求。在互联网服务场景下,运维监控数据量激增,采集监控的数据类型更加多样,现有采用单模引擎的运维系统应对如今数据爆炸式增长的场景时,已经显得力不从心。

2020年,东软集团与阿里云原生多模数据库Lindorm达成合作,围绕运营商、政务云和汽车等行业的新一代数字信息系统IT运维场景,在海量监控数据上存在存储、分析的痛点,进一步扩展应用智能运维产品RealSight APM和云管理产品SaCa Aclome能力,解决了大数据场景下的IT运维难题。

东软集团创立于1991年,是中国第一家上市的软件公司,一直以来致力于以信息技术的创新推动社会发展、创造美好生活。东软集团以软件技术为核心,业务领域覆盖智慧城市、医疗健康、智能汽车互联及软件产品与服务。

据著名分析机构Forrester统计数据,目前有57%的企业客户IT运维部反馈至少每周会发生一次影响应用性能和可用性的问题;每天都发生问题的比例占到了28%。对于愈加依赖应用面向客户实现企业价值,提升工作效率的当今企业来说,这种问题越来越无法忍受。统计数据显示有超过一半的企业认为由于应用性能问题直接导致业务用户和IT部门生产效率降低和时间浪费;有42%的企业认为应用性能问题直接影响了企业收入。

为了解决这种现象,打造适应如今运维需求的的新一代数字信息系统IT运维系统,东软集团急需新型运维大数据存储引擎支撑,来对运维系统存储引擎升级改造。

多模型数据互融互通,IT运维监控数据更加灵动

由于产品数字化导致应用结构愈加复杂,监控数据类型更加多样:技术方面,诸如混合云、数据分析、物联网、车联网、体域网等新技术的持续演进也使得应用结构愈加复杂,保障应用性能更加困难。据统计,超过一半(52%)的企业IT运维部门在监控管理工具上的投入是被动、针对特定问题且分散的。但由于存储能力有限,单模存储引擎功能单一,数据存储分散、碎片化,难以应对未来以应用为核心的IT监控运维新需求和技术演进。随着时间的推移,现有IT运维数据存储分析问题会恶化。

image.png

图1 基于云原生多模数据库Lindorm的运维多模数据融合存储分析

采用新型运维大数据存储引擎支撑多模型数据融合分析成为当务之急,利用内置多模数据引擎处理能力,云原生多模数据库Lindorm完美适配东软客户IT运维监控场景数据存储分析需求。东软基于Lindorm打造,面向政企互联网化数字信息系统运维监控场景的新一代IT智能运维系统部署架构如图2所示,其中Lindorm作为核心运维数据存储、检索引擎全量接收来自移动终端、网络嗅探器、业务监控探针、日志采集器等多种数据来源实时采集的异构监控数据,以高并发、高通量数据写入方式将数据入库。在运维过程中,用户通过实时监控仪表盘、统计分析报表或风险定位、检测工具对接Lindorm多模引擎海量数据检索、分析能力,来满足不同应用场景的运维大数据信息提取需要。

适用场景:

实时状态大屏展现

应用海量日志检索

定点用户行为追踪

故障数据全量回溯分析

AI辅助异常检测等场景

image.png

图2 东软新型IT智能运维系统部署方案

高性能、高通量监控数据入库,轻松搞定大日活量应用系统监控

如今几乎人手一台智能手机,各式各样的APP也渗入到我们工作、生活的方方面面,我们手机中承担不同功能的APP可能已经占了好几屏。而一个企业的IT系统涉及到的则更加广泛,面向客户、合作伙伴和内部员工会有不同的业务系统,每个系统针对不同的业务、产品功能又会有更多的细分应用,因此企业IT系统及应用复杂度和数量会随着产品智能、互联化的深入持续增长,与之对应的用来保证系统可用性的运维监控系统,所需要采集数据的种类,以及需要存储的数据量同步激增,现有监控系统基于RRD数据库或关系数据库搭建的单模引擎的存储、检索能力和需求脱节。

云原生多模数据库Lindorm在支持宽表、时序、搜索、文件四种模型的基础上,兼具高性能的优势,其中宽表引擎支持千万级并发吞吐,支持百PB级存储。时序引擎的写入性能和查询性能是开源TSDB的5-10倍。搜索引擎基于Lucene引擎深度优化,综合性能比开源Solr/ES提升30%。东软以云原生多模数据库Lindorm为核心,围绕运营商、汽车等目标场景监控运维特点,进一步扩展了应用智能运维产品RealSight APM和云管理产品SaCa Aclome能力,实现了高通量、高并发监控数据的实时、低成本存储。解决了面向海量数据采集终端同时写入数据的并发能力弱,数据量大且价值密度低导致存储成本高的问题。

东软集团表示,利用云原生多模数据库Lindorm“灵动”引擎驱动的政府、企业数字信息系统智能运维解决方案,东软做到了实时、海量、异构监控数据一站式存储,实现指标、日志、代码链路和网络包等异构数据融合分析,高可靠数据保障和遍在可达实时监控数据存储云端服务。如图3所示,阿里Lindorm数据库在赋能政企数字运维团队更强大的运维大数据分析能力的同时,大幅度提升了政府、企业数字系统性能和在线服务的客户数字体验,降低了低价值密度监控数据存储管理成本。

image.png

图3 云原生多模数据库Lindorm驱动的IT运维监控系统

基于云原生多模数据库Lindorm,东软集团搭建的新一代IT智能运维系统支撑某行业领先车企,存储、检索从全球客户终端采集的用户数字足迹和客户体验数据,将运维大数据大屏可视化,更便捷地分析运维数据,更加直观地发现问题点,同时节约数据存储和系统维护成本达4成,建设效果如图4所示。此次东软集团与云原生多模数据库Lindorm的合作,为解决当今海量数据多模型场景的IT运维问题打造了高质量的范本。

image.png
image.png
image.png
image.png

图4 运维大数据可视化界面效果

来源:阿里巴巴数据库技术 微信公众号
原文链接:https://mp.weixin.qq.com/s/11XPVecHFQctKqRWuEdz0w

相关实践学习
Lindorm AIGC:十分钟搞定智能问答 + 多模态检索
通过使用Lindorm AIGC体验版服务,十分钟搞定定制化智能问答和多模态检索。
相关文章
|
6天前
|
运维 Linux Apache
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
21 3
|
15天前
|
运维 监控 安全
高效运维管理:提升系统稳定性的策略与实践
【10月更文挑战第2天】 在当今数字化时代,运维管理成为企业IT部门的重要任务。本文将探讨如何通过高效的运维管理策略和最佳实践,提升系统的稳定性,确保业务持续平稳运行。通过分析常见问题、预防措施以及应对策略,我们将揭示高效运维的关键要素,助您打造一个可靠的IT环境。
|
4天前
|
运维 监控 安全
高效运维管理:提升系统稳定性的策略与实践
【10月更文挑战第13天】 本文探讨了高效运维管理的关键策略和实践,旨在帮助运维团队提升系统的稳定性。通过分析常见问题,提出具体的解决方案,包括监控与告警、自动化工具的应用、故障排查与恢复、性能优化以及安全防护等方面。通过这些策略和实践,可以帮助企业构建一个稳定、可靠且高效的IT系统。
27 1
|
13天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
15天前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
15天前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
22天前
|
运维 监控 大数据
高效运维管理:提升系统稳定性的策略与实践
在当今信息技术飞速发展的时代,运维管理作为保障系统稳定运行的关键环节,其重要性不言而喻。本文将深入探讨如何通过优化运维流程、引入自动化工具和建立完善的监控体系等策略,来有效提升系统的稳定性。同时,结合具体实践案例,分析这些策略在实际工作中的应用效果,为运维人员提供有益的参考和启示。
58 6
|
25天前
|
运维 负载均衡 监控
提升系统性能:高效运维的秘密武器——负载均衡技术
在当今数字化时代,系统的高可用性和高性能成为各类企业和组织追求的目标。本文旨在探讨负载均衡技术在运维工作中的关键作用,通过深入分析其原理、类型及实际应用案例,揭示如何利用这项技术优化资源分配,提高系统的响应速度和可靠性,确保用户体验的稳定与流畅。无论是面对突如其来的高流量冲击,还是日常的运维管理,负载均衡都展现出了不可或缺的重要性,成为现代IT架构中的基石之一。
38 4
|
1月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
76 6
阿里云日常运维-购买服务器
|
1月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。

热门文章

最新文章