基于阿里云构建可靠懒猪行IT运维平台

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 背景 以阿里云为代表的云计算平台的出现,给IT系统的运维带来了巨大的便利,我们的项目在14年创立之处就在使用阿里云的ECS。2016年度,我们借助单台ECS实例和精心设计的软件系统,跑出了接近1个亿的销售额,但随着业务规模的快速扩展和IT系统的演进,运维架构也做出了较大的调整。

背景

以阿里云为代表的云计算平台的出现,给IT系统的运维带来了巨大的便利,我们的项目在14年创立之处就在使用阿里云的ECS。2016年度,我们借助单台ECS实例和精心设计的软件系统,跑出了接近1个亿的销售额,但随着业务规模的快速扩展和IT系统的演进,运维架构也做出了较大的调整。

关键点

  1. 将业务分拆为一般重要、关键和既重要又关键的模块
  2. 搭建持续集成环境和预发布环境
  3. 敲除单点故障,为保证SLA对关键服务做冗余处理
  4. 对未来数据规模的预估,并定期归档冷数据
  5. 用好内存型NoSQL,例如Redis

业务分拆的原则

业务分拆的方法有很多,微服务架构是其中一种不错的思路之一。但分拆的原则,是先分拆一般但数据量较大的业务模块,其次才会对核心业务模块分拆。

懒猪行S2B系统中的一个比较典型的例子,是消息盒子。最初的设计思路是将其与主体系统耦合在一起,并且把数据与业务数据一起放到MySQL中。但后续评估数据量时,发现消息盒子产生的巨大数据量,占用业务系统的数据库IO开销,对业务稳定性存在潜在的威胁。于是我们决定将其分拆到单台独立的ECS实例中运行,数据库改用Redis,与主业务系统之间通过API接口交互数据。

负载均衡和跨境访问优化

作为一个面向B端商家的跨境旅游项目,要优先保障国内分销商家的访问,同时也要保障境外地接社和游客的访问。

在早期的方案中,我们将服务器放在香港,同时对大陆和境外访问。但随着业务的增长,大陆与香港之前的公网状况已经不允许我们这么做,于是我们把数据迁回大陆,在香港和大陆之间架设专线,然后通过香港的Nginx反向代理把境内服务器转发出去,这样同时满足了境内和境外的访问要求。

懒猪行IT系统架构图(简化版)

_

数据库读写分类和分库分表原则

  1. 对历史数据的处理
    懒猪行系统目前的数据规模还不算太大,基于对未来数据量发展的预估和后期维护的敏捷性,我们会定期归档一年前的历史交易数据到MongoDB中长期存储,这样对系统整体性能提升有显著帮助,同时以独立的服务模块维护,向主业务系统提供数据查询接口。
  2. 数据库读写分离
    读写分离是访问量较大的IT系统都会采用的技术方案,但基于业务系统的特殊性(频繁的数据导出)和对数据分析挖掘(产品销售的关联性分析)的需求,我们采用一主多从的方案。
  3. 使用Redis缓存高频数据
    操作人员频繁的查看和修改订单,消费、退款等操作,虽然实现了数据库读写分离,但仍然有不小的压力;另外,诸多同行对接API,可能会存在集中式的订单创建。使用内存型Redis缓存,可以减少90%以上的数据库读取操作,并且对较集中的订单创建(例如双11这样的场景)和修改操作“削峰”,提升系统的整体性能和健壮性。

作者信息:刘远程,杭州懒猪行Co-founder兼CTO。知名信息安全企业产品经理出身,曾多次创业并担任技术总监和CTO,具有丰富的互联网产品设计、开发和团队管理经验。

目录
相关文章
|
3月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
27天前
|
运维 监控 自动驾驶
低代码运维平台:是“运维福音”,还是“甩手掌柜”?
低代码运维平台:是“运维福音”,还是“甩手掌柜”?
89 29
|
20天前
|
运维 Linux 网络安全
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
50 4
|
5月前
|
运维 监控 算法
阿里云 OS 控制台:让基础设施运维不再难
涵盖智能异常检测、智能根因分析、智能修复建议的全链路运维解决方案
|
4月前
|
运维 监控 Linux
WGCLOUD运维平台的分布式计划任务功能介绍
WGCLOUD是一款免费开源的运维监控平台,支持主机与服务器性能监控,具备实时告警和自愈功能。本文重点介绍其计划任务功能模块,可统一管理Linux和Windows主机的定时任务。相比手动配置crontab或Windows任务计划,WGCLOUD提供直观界面,通过添加cron表达式、执行指令或脚本并选择主机,即可轻松完成任务设置,大幅提升多主机任务管理效率。
|
6月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
274 6
|
5月前
|
数据采集 机器学习/深度学习 人工智能
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
369 0
|
2月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
130 11
|
4月前
|
机器学习/深度学习 人工智能 运维
运维不背锅,从“自动修锅”开始:AI自动化运维是怎么回事?
运维不背锅,从“自动修锅”开始:AI自动化运维是怎么回事?
313 49
|
3月前
|
运维 Prometheus 监控
系统崩了怪运维?别闹了,你该问问有没有自动化!
系统崩了怪运维?别闹了,你该问问有没有自动化!
115 9

热门文章

最新文章