基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-历史数据分析篇

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 前言在大规模订单系统中,离线的数据分析必不可少。工程师和运营人员使用批处理工具如 Spark 对历史数据进行计算分析,其计算结果可以用于用户画像、产品推荐等多个场景。传统的 MySQL 分库分表架构是无法应对这种需求的,一般会引入 Hive 对数据进行归档存储,然后利用 Hive 来对接 Spark 或者 HiveSQL 等分析工具。这样的架构会带来很高的维护成本,首先 Hive、HDFS、Had

前言

在大规模订单系统中,离线的数据分析必不可少。工程师和运营人员使用批处理工具如 Spark 对历史数据进行计算分析,其计算结果可以用于用户画像、产品推荐等多个场景。

传统的 MySQL 分库分表架构是无法应对这种需求的,一般会引入 Hive 对数据进行归档存储,然后利用 Hive 来对接 Spark 或者 HiveSQL 等分析工具。这样的架构会带来很高的维护成本,首先 Hive、HDFS、Hadoop 等大数据工具的搭建和维护需要专业的大数据运维团队;其次,从 MySQL 或 Oracle 向 Hive 中导入数据的 ETL 作业需要开发、维护、监控。运维成本高,系统链路复杂。

阿里云的表格存储,结合对象存储服务 OSS,实现了数据的自动投递归档,开发者无需关注运维细节,这极大降低了归档和离线数据分析的运维成本。Tablestore 结合 OSS 为此类订单场景下的离线数据分析提供了一种更为低成本、便捷的解决方案。

OSS 简介

对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。

使用 Tablestore 结合 OSS 系统,架构如下:

MySQL 中数据通过 DTS 同步进入 Tablestore,数据再从 Tablestore 被投递进入 OSS。这样 OSS 中可以存储全量历史数据,成为 Tablestore 的归档备份库,其中数据分区,使用列式存储,更适合对接批处理工具。这样的架构可以实现如下场景需求:

  • 全量数据备份数据湖投递可以自动将表格存储的全表数据投递到 OSS Bucket 中,作为备份归档数据。
  • 投递的数据按系统时间分区、Parquet 列存存储;利用 OSS 的高读带宽和列存面向扫描场景优化,对接批处理工具如 Spark,实现历史数据分析、画像分析等需求。

下文,我们将展示如何配置 Tablestore 向 OSS 中的数据自动同步任务。 

OSS 数据投递

OSS 服务开通

首先需要开通 OSS 服务。在阿里云官网,进入对象存储 OSS 首页。点击立即开通

勾选服务协议,然后点击立即开通。

然后需要在 OSS 创建 BUCKET。进入 OSS 管理控制台,点击 Bucket 列表,然后点击创建 Bucket

填入 Bucket 名称,选择对应地域,其余选项选用默认项即可,点击确定,完成 Bucket 的创建。

至此,OSS 服务开通完毕,然后要在 Tablestore 中配置投递任务。

投递服务开通

进入表格存储首页

点击管理控制台,进入控制台页面。点击进入实例。可以看到我们前面创建的订单相关表。

我们要将订单表 order_contract 投递到 OSS 。点击数据湖投递

点击创建投递任务

各参数如图。任务名称自定。目标 Table 选择 order_contract。目标 OSS BUCKET 选择 otssearch-vpc-hangzhou。投递路径自定义,这里使用 order_contract/year=$yyyy/month=$MM。投递类型选择全量&增量,Schema 采用自动生成

点击确定,完成投递任务的创建。

此时,在 Tablestore 数据湖投递这一页里,可以看到刚刚新建的同步任务。任务会先同步历史数据,完成后,其状态显示为增量同步中

同步结束后,可以在 OSS 控制台首页,对应 Bucket 下可以看到投递到 OSS 下的数据文件。

至此投递服务创建完毕。Tablestore 也支持使用 SDK 创建同步任务,具体可以参考数据湖投递->使用SDK

DLA 查询

自动发现元数据

进入 DLA 控制台首页。点击元信息发现,然后点击 OSS数据源旁的进入向导。这里如果提示要开通 DLA 到 OSS 的访问权限,按照提示开通即可。

选择数仓模式。选择 parquet。填入 Schema 名称。

选择 OSS 目录位置,弹出

选择对应的 bucket。选择到对应路径,这里 order_contract 数据就在根路径/下,因此这里选择到根路径,不需要勾选 order_contract。然后点击确定,完成 OSS 目录位置的配置。

最后点击外层的创建,点击立即发现,完成元数据发现的创建。

此时,可以在元信息发现页面看到刚刚创建的任务。

SQL 查询数据

在 DLA 控制台首页,点击 SQL 执行,点击登录 DML 执行 SQL,进入 DML 页面。

在 DML 页面,可以看到刚刚自动创建出的 Schema “test_tablestore_oss”以及创建出的映射表 order_contract。对映射表执行对应的 SQL,可以得到对应结果。这里也可以使用程序读取表中的数据,相关内容在前面关于 DLA 的文章中已经讲述过,这里不再展开。

数据分析

下面将展示如何使用 Spark 对接 OSS,并完成如下需求,

  • 统计各店铺历史总交易额,并将结果数据入库

创建集群

创建阿里云E-MapReduce的Hadoop集群,文档参见创建集群

登录 Spark-sql 客户端

集群管理页面,点击创建的集群。

点击主机列表,点击emr-header-1机器。

点击远程连接

选择立即登录

输入创建集群时设定的密码。登录机器。

在指令行输入以下指令,登录 Spark-sql 客户端,

streaming-sql --driver-class-path emr-datasources_shaded_*.jar --jars emr-datasources_shaded_*.jar --master yarn-client --num-executors 8 --executor-memory 2g --executor-cores 2

批处理

创建结果表

在 Tablestore 中创建用于存储批处理结果的结果表,当然,结果表可以存放于 MySQL、Tablestore、OSS对象存储等任意数据库以及存储结构。本例中,Tablestore 中结果表表名为 store_statistic,表结构如下,只预设一个主键。

序号

主键名称

主键类型

说明

1

s_id

STRING

分区键,店铺id

执行 Spark-sql

首先在 Spark-sql 客户端输入如下 SQL,创建 Spark 中的源表。

create table order_contract_oss(
oId string,
create_time string,
total_price double,
p_brand string,
p_price double,
pay_time bigint,
has_paid bigint,
s_id string,
p_name string,
c_id string,
c_name string,
s_name string,
p_count bigint,
p_id string
) using parquet
location 'oss://{accessSecret}:{accessKey}@otssearch-vpc-hangzhou.oss-cn-hangzhou-internal.aliyuncs.com/order_contract';

然后在 Spark-sql 客户端输入如下 SQL,创建 Spark 中的目标表。目标表中除了店铺 id 字段 s_id 外,还有字段 total,作为店铺总交易额字段。

DROP TABLE IF EXISTS store_statistic;
CREATE TABLE store_statistic
USING tablestore
OPTIONS(
endpoint="https://test-20210609.cn-hangzhou.vpc.tablestore.aliyuncs.com",
access.key.id="",
access.key.secret="",
instance.name="test-20210609",
table.name="store_statistic",
catalog='{"columns":{"s_id":{"col":"s_id","type":"string"},"total":{"col":"total","type":"string"}}}'
);

最后输入计算 SQL,如下,即完成批处理任务。

insert into store_statistic
select s_id,sum(total_price) as total from order_contract_oss  where group by s_id

查看结果

在结果表中查看结果数据,如图。

总结

Tablestore 将数据投递进入 OSS,以 OSS 作为其全量数据备份。OSS 中数据以时间分区,列式存储,存储成本更低,且更适合支持数据分析需求。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
3月前
|
数据采集 机器学习/深度学习 运维
量化合约系统开发架构入门
量化合约系统核心在于数据、策略、风控与执行四大模块的协同,构建从数据到决策再到执行的闭环工作流。强调可追溯、可复现与可观测性,避免常见误区如重回测轻验证、忽视数据质量或滞后风控。初学者应以MVP为起点,结合回测框架与实时风控实践,逐步迭代。详见相关入门与实战资料。
|
3月前
|
前端开发 JavaScript BI
如何开发车辆管理系统中的车务管理板块(附架构图+流程图+代码参考)
本文介绍了中小企业如何通过车务管理模块提升车辆管理效率。许多企业在管理车辆时仍依赖人工流程,导致违章处理延误、年检过期、维修费用虚高等问题频发。将这些流程数字化,可显著降低合规风险、提升维修追溯性、优化调度与资产利用率。文章详细介绍了车务管理模块的功能清单、数据模型、系统架构、API与前端设计、开发技巧与落地建议,以及实现效果与验收标准。同时提供了数据库建表SQL、后端Node.js/TypeScript代码示例与前端React表单设计参考,帮助企业快速搭建并上线系统,实现合规与成本控制的双重优化。
|
3月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
376 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
3月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
762 23
|
4月前
|
消息中间件 数据采集 NoSQL
秒级行情推送系统实战:从触发、采集到入库的端到端架构
本文设计了一套秒级实时行情推送系统,涵盖触发、采集、缓冲、入库与推送五层架构,结合动态代理IP、Kafka/Redis缓冲及WebSocket推送,实现金融数据低延迟、高并发处理,适用于股票、数字货币等实时行情场景。
612 3
秒级行情推送系统实战:从触发、采集到入库的端到端架构
|
3月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
452 0
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)
593 0
|
4月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
424 158
|
4月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
4月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
954 152

推荐镜像

更多