做好“商户服务摆渡人”,收钱吧构建统一运维管理平台

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 用了SLS后,对运维团队来说,整合了各种运维监控系统,从原来的被动运维转为主动运维,大大提高了运维效率,严重故障发生次数从原来的每月1次降到每季度不到一次,用户满意度稳步提高,页面响应时间从原来的4-5秒降到1-2秒,用户体验有了质的提升。

一、客户简介


收钱吧成立于2013年,现已成为国内领先的数字化门店综合服务商。收钱吧通过网络和数据的力量,为商家提供专业的移动支付收款、营销管理软件、广告、供应链、共享充电宝、商家社区等多种服务,全方位解决线下商家的开店需求。

 收钱吧logo.jpg

目前,收钱吧服务网络已经覆盖中国境内所有城市(含香港),累计服务人次近300亿,为线下近500万实体商家提供服务。从夫妻店到国际连锁品牌,收钱吧的身影遍布大江南北,深入大街小巷。

 

二、客户需求


1. 用户体验


收付款业务对性能和用户体验要求很高,扫描门店码后的页面性能、支付性能、客户端的稳定性等每个环节都需要秒级响应,以确保用户整体支付体验的完整。

 

2. 统一运维平台


另外运维团队需要一个统一的运维管理平台,给各业务模块提供平台化的服务。由于收钱吧业务涉及收款、广告、供应链、共享充电宝等多种类型,运维团队需要集中管理所有业务的基础架构和系统的稳定运行,出现问题后,可以让各业务团队在不登录服务器的情况下自助排查问题,查找故障日志,所以需要一个可以给不同业务团队分别设置权限的日志管理平台。

 

3. 广告投放效果数据采集和分析


广告效果的好坏一直是各广告主关注的核心要素,广告的触达人数、用户点击率、转化率等是衡量广告投放渠道最关键的指标。这些来自世界各地实时数据的统一采集、清洗和低成本分析对大数据团队来说是个难题。

 

三、方案特点


1. 基于阿里云日志服务的实时数据采集、可视化和告警能力,运维团队制作了门店码性能监控大盘、交易品质大盘、门店码打点监控大盘等多个监控仪表盘,并对门店码异常设置了告警,及时发现并处理支付系统出现的各类故障,避免保障用户体验。

监控仪表盘1.jpg

监控仪表盘2.jpg

监控仪表盘3.png

2. 将所有服务器上的日志都接入SLS后,不同业务部门的研发人员无需登陆服务器就可以使用SLS快速查找日志,排查故障。登陆服务器上查看日志费事费力不说,还出现过误操作导致文件被删除,影响到业务的情况发生。现在使用SLS既满足安全需求,又提高了故障排查效率,现在SLS每天查询次数超过万次,深受业务方好评。

 

3. 各终端上的广告显示数量、用户点击数量等指标都通过sdk埋点方式采集上来,然后进行统一的加工和清洗,投递到ODPS中进行大数据离线分析。这套方案的优势在于首先统一了采集的方式,统一管理所有埋点数据采集方案,并且可以方便的对数据进行清洗和加工,满足广告投放效果分析的各种分析维度和组合对数据格式和质量的要求。

采样数据.jpg

四、客户价值


客户表示,用了SLS后,对运维团队来说,整合了各种运维监控系统,从原来的被动运维转为主动运维,大大提高了运维效率,严重故障发生次数从原来的每月1次降到每季度不到一次,用户满意度稳步提高,页面响应时间从原来的4-5秒降到1-2秒,用户体验有了质的提升。

 

同时日志服务也在各业务部门和大数据团队中有了很好的口碑,很好的支持了收钱吧各业务团队的工作,获得了很好的口碑。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
运维 监控 Linux
WGCLOUD运维平台的分布式计划任务功能介绍
WGCLOUD是一款免费开源的运维监控平台,支持主机与服务器性能监控,具备实时告警和自愈功能。本文重点介绍其计划任务功能模块,可统一管理Linux和Windows主机的定时任务。相比手动配置crontab或Windows任务计划,WGCLOUD提供直观界面,通过添加cron表达式、执行指令或脚本并选择主机,即可轻松完成任务设置,大幅提升多主机任务管理效率。
|
6月前
|
存储 人工智能 运维
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
377 2
|
6月前
|
Prometheus 运维 监控
运维实战来了!如何构建适用于YashanDB的Prometheus Exporter
今天分享的是构建YashanDB Exporter的核心设计理念和关键方法,希望也能为你的运维实战加分!
|
8月前
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
|
9月前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
1500 13
|
9月前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
1273 3
|
10月前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
10月前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
11月前
|
运维 监控 jenkins
运维自动化实战:利用Jenkins构建高效CI/CD流程
【10月更文挑战第18天】运维自动化实战:利用Jenkins构建高效CI/CD流程
|
11月前
|
机器学习/深度学习 敏捷开发 运维
构建高效运维体系
本文旨在探讨如何通过技术创新和管理优化,构建一个高效、稳定且可持续发展的运维体系。我们将从自动化工具的应用、监控告警机制的完善、持续集成与持续部署(CI/CD)的实践、以及团队协作与沟通的强化等多个维度,深入剖析运维体系的构建过程。同时,文章将结合实际案例,分析运维过程中可能遇到的挑战及应对策略,为运维人员提供实用的指导和建议。