订单表大数据处理实战

简介: 前言:也许大数据,大并发,大流量在许多coder中还是一个比较遥远的事情。碰巧我最近经手的一个项目就有着大数据的问题(一天100w条数据左右)虽说不能算超级大,也算是需要做些特殊处理才能应付。

前言:

也许大数据,大并发,大流量在许多coder中还是一个比较遥远的事情。碰巧我最近经手的一个项目就有着大数据的问题(一天100w条数据左右)虽说不能算超级大,也算是需要做些特殊处理才能应付。
首先交代下背景:
首先大数据的表是一张订单表,订单表中有,交易金额,收益等字段,需要在后台做三种以上的统计

  1. 今日统计
  2. 昨日统计
  3. 累计统计

在这样大数据出现之前,使用的解决方案一直是将订单全部存在一张表里。然后统计的时候,就直接查询全表,做聚合查询。
这样处理在数据量不大的情况下确实是没问题,只是在新的订单量迅速增大,对数据表的读写和统计都有不小的挑战!

1. 水平分表

首先从数据表入手,经过我们思考,我们选择对数据表分表。分表的时机为按量分表,比如我们发现,订单表马上要到500w数据时,我们就新建下一张订单表(当然这是自动的)

这样做的好处就是,数据表的读取性能会比较好,而且不会在数据超级大的时候发生写入挂起的情况。始终让订单表处于一个高性能的状态。

当启用新表时,我们相应的创建订单方法和修改订单方法也要随着改变,要对新的数据表进行操作,这里就涉及到我上一篇文章《模型初始化踩坑记》 这里就不再赘述了。

2. 停机统计

搞定了对订单的新增和修改,就来到了本次项目的难点了,那就是对订单的统计。也是进过了很久的思考与讨论。发现我们的订单统计有一个特点:那就是很多地方都需要全表统计。如果我们先分表,然后再连表查询,这无疑就是脱了裤子。。。
那么经过我们的套路,我们设想出一套机制

停机统计机制流程图

这样做的目的是为了将一天的订单分为两个部分,一个是8:30之前,一个是8:30之后的。这样就可以很好的规避数据表切换导致的统计漏掉。这样每天只统计今日0 ~ 8:30和昨日8:30 ~ 23:59。通过计算,就可以得到昨日的统计,累计的统计(截止于今日8:30)

3.结合停机统计的实时统计

那么有人可能会问,那么8:30之后的订单如何统计呢?当然,我这里的机制最多能统计到当日8:30的数据,有很多的数据需要时效性,也就是实时的反应出订单的数据。那么这里我就要介绍第二套机制

实时统计流程图

根据当前时间的判断,走向两个case,拿到停机时段的统计数据,再结合,实时统计的数据。就可以得到完整的统计订单数据。虽然这个步骤看上去有些复杂。这就像是压缩文件,当你压缩一个1b的文件时,压缩出了70几b的压缩包。当我们的订单数据达到了1000w,甚至更多。那种看似简单的只统计聚合查询订单表便变得非常的慢。这一套逻辑虽然查询次数多一些。但是查询速度会有一个上限。这个上限就是我们切换数据表。随后读取的就是新的数据表,速度会非常快。
如果使用实时查询订单表,开始订单不多的时候,会很快。当订单越来越多时。查询速度会呈正函数形式向上递增。

本次介绍,主要是介绍一个思路。如果有更好的思路欢迎大家交流。由于涉及公司业务,代码就不便展示了。希望得到大神指点
谢谢

以上

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
8月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
8月前
|
存储 SQL 分布式计算
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
407 19
|
7月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
408 0
|
8月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1027 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1787 1
|
11月前
|
SQL 缓存 数据处理
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
Apache Doris 提出“数据无界”和“湖仓无界”理念,提供高效的数据管理方案。本文聚焦三个典型应用场景:湖仓分析加速、多源联邦分析、湖仓数据处理,深入介绍 Apache Doris 的最佳实践,帮助企业快速响应业务需求,提升数据处理和分析效率
713 3
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
|
11月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。