订单表大数据处理实战-阿里云开发者社区

订单表大数据处理实战

2018-05-16 1652

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前言:也许大数据,大并发,大流量在许多coder中还是一个比较遥远的事情。碰巧我最近经手的一个项目就有着大数据的问题（一天100w条数据左右）虽说不能算超级大，也算是需要做些特殊处理才能应付。

前言:

也许大数据,大并发,大流量在许多coder中还是一个比较遥远的事情。碰巧我最近经手的一个项目就有着大数据的问题（一天100w条数据左右）虽说不能算超级大，也算是需要做些特殊处理才能应付。
首先交代下背景：
首先大数据的表是一张订单表，订单表中有，交易金额，收益等字段，需要在后台做三种以上的统计

今日统计
昨日统计
累计统计

在这样大数据出现之前，使用的解决方案一直是将订单全部存在一张表里。然后统计的时候，就直接查询全表，做聚合查询。
这样处理在数据量不大的情况下确实是没问题，只是在新的订单量迅速增大，对数据表的读写和统计都有不小的挑战！

1. 水平分表

首先从数据表入手，经过我们思考，我们选择对数据表分表。分表的时机为按量分表，比如我们发现，订单表马上要到500w数据时，我们就新建下一张订单表（当然这是自动的）

这样做的好处就是，数据表的读取性能会比较好，而且不会在数据超级大的时候发生写入挂起的情况。始终让订单表处于一个高性能的状态。

当启用新表时，我们相应的创建订单方法和修改订单方法也要随着改变，要对新的数据表进行操作,这里就涉及到我上一篇文章《模型初始化踩坑记》这里就不再赘述了。

2. 停机统计

搞定了对订单的新增和修改，就来到了本次项目的难点了，那就是对订单的统计。也是进过了很久的思考与讨论。发现我们的订单统计有一个特点：那就是很多地方都需要全表统计。如果我们先分表，然后再连表查询，这无疑就是脱了裤子。。。
那么经过我们的套路，我们设想出一套机制

停机统计机制流程图

这样做的目的是为了将一天的订单分为两个部分，一个是8:30之前，一个是8:30之后的。这样就可以很好的规避数据表切换导致的统计漏掉。这样每天只统计今日0 ~ 8：30和昨日8:30 ~ 23:59。通过计算，就可以得到昨日的统计，累计的统计（截止于今日8:30）

3.结合停机统计的实时统计

那么有人可能会问，那么8：30之后的订单如何统计呢？当然，我这里的机制最多能统计到当日8：30的数据，有很多的数据需要时效性，也就是实时的反应出订单的数据。那么这里我就要介绍第二套机制

实时统计流程图

根据当前时间的判断，走向两个case，拿到停机时段的统计数据，再结合，实时统计的数据。就可以得到完整的统计订单数据。虽然这个步骤看上去有些复杂。这就像是压缩文件，当你压缩一个1b的文件时,压缩出了70几b的压缩包。当我们的订单数据达到了1000w，甚至更多。那种看似简单的只统计聚合查询订单表便变得非常的慢。这一套逻辑虽然查询次数多一些。但是查询速度会有一个上限。这个上限就是我们切换数据表。随后读取的就是新的数据表，速度会非常快。
如果使用实时查询订单表，开始订单不多的时候，会很快。当订单越来越多时。查询速度会呈正函数形式向上递增。

本次介绍，主要是介绍一个思路。如果有更好的思路欢迎大家交流。由于涉及公司业务，代码就不便展示了。希望得到大神指点
谢谢

以上