Maxcompute造数据-方法详解

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 造一点模拟数据的方法
  1. 概述

造数据在一些奇怪的场合会被用到。一般我们是先有数据才有基于数据的应用场合,但是反过来如果应用拿到另外一个场景,没有数据功能是没有方法演示的。
一般较为真实的数据,脱敏后就可以应用在功能测试和演示的场合。但是数据脱敏其实也满复杂(脱敏过重数据就用不了了,过低数据又泄漏了),所以自己模拟一些数据,似乎更安全。
我个人一般遇到的造数据场景有两个。第一,是有合作伙伴或者同事咨询一个SQL处理数据的方法,没有数据。第二,就是有时候会有POC的一些场景,没有提供真实模拟数据,需要自己模拟。

  1. 分类

如果是单一的业务场景的数据模拟,很多时候单表就可以满足了。但是要是模拟某个业务场景,或者POC测试场景则要模拟一个业务系统中的相互关联的多张表。
造数据,一般会都会有些用户需求,会有明确的业务场景的描述。也会有一些其他要求,例如:表的记录数、行的存储、字段的生成规则、字段的值域、字段的枚举值,还可能会给少量真实的数据。
2.1. 一个表
单独造一张表的数据可能非常简单,比如我们日常测试一个函数,测试一段SQL的JOIN逻辑。也可能非常复杂,构造一个表,也就相当于构造一个业务系统。
2.2. 一个业务系统
业务系统相对于单表来说只是表的数量增加了。而且,因为业务系统的表间是存在主外键关系的,所以,需要先造代码表(维度表),然后再造业务表(事实表)。

  1. 方法

造模拟数据的方法分为两个阶段,第一阶段是构造一个小表,产生代码表(维度表),然后第二阶段利用笛卡尔积快速乘出需要的数据量。在这其中,列的数据值填充可以使用随机函数生成。
3.1. 构造一个常量小表
Maxcompute最简单的造数据的方法是insert into values语句,这一般也是我最常用的。在不支持这个语句之前的更早的版本,使用的是union all的方法。如果不想实际写入数据到,则可以使用from values 和 with 表达式。

示例1:通过insert … values操作向特定分区内插入数据。
命令示例如下:

--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);

--向分区表srcp添加分区。
alter table srcp add if not exists partition (p='abc');

--向表srcp的指定分区abc中插入数据。
insert into table srcp partition (p='abc') values ('a',1),('b',2),('c',3);

--查询表srcp。
select * from srcp where p='abc';

--返回结果。
+------------+------------+------------+
| key        | value      | p          |
+------------+------------+------------+
| a          | 1          | abc        |
| b          | 2          | abc        |
| c          | 3          | abc        |
+------------+------------+------------+

示例2:通过values table操作插入数据。

命令示例如下:
--创建分区表srcp。
create table if not exists srcp (key string,value bigint) partitioned by (p string);

--向表srcp中插入数据。
insert into table srcp partition (p) select concat(a,b), length(a)+length(b),'20170102' from values ('d',4),('e',5),('f',6) t(a,b);

--查询表srcp。
select * from srcp where p='20170102';

--返回结果。
+------------+------------+------------+
| key        | value      | p          |
+------------+------------+------------+
| d4         | 2          | 20170102   |
| e5         | 2          | 20170102   |
| f6         | 2          | 20170102   |
+------------+------------+------------+

values (…), (…) t(a, b)相当于定义了一个名为t,列为a和b,数据类型分别为STRING和BIGINT的表。列的类型需要从values列表中推导。
示例3:from values或者union all组合的方式,构造常量表。
命令示例如下:

with t as (select 1 c union all select 2 c) select * from t;
--等价于如下语句。
select * from values (1), (2) t(c);

--返回结果。
+------------+
| c          |
+------------+
| 1          |
| 2          |
+------------+

以上例子来源于:
https://help.aliyun.com/document_detail/73778.html?spm=a2c4g.11186623.6.732.7e477b57ZhLOGj
3.2. 利用笛卡尔积构造大表
众所周知,笛卡尔积的写法只能用在MAPJOIN提示的情况下。所以,第一步构造出来的常量小表是可以使用MAPJOIN的。
命令示例如下:
-- 1 构造一个常量表(我这里用的有序数字,方便使用where去取制定数量的记录数去乘笛卡尔积)

create table za1 as 
select c0 from values
 (1),(2),(3),(4),(5),(6),(7),(8),(9),(10),(11),(12),(13),(14),(15)
,(16),(17),(18),(19),(20),(21),(22),(23),(24),(25),(26),(27),(28),(29),(30)
,(31),(32),(33),(34),(35),(36),(37),(38),(39),(40),(41),(42),(43),(44),(45)
,(46),(47),(48),(49),(50),(51),(52),(53),(54),(55),(56),(57),(58),(59),(60)
,(61),(62),(63)
t(c0);

--------------------------
-- 下面这种方法使用shell循环构建,比较好控制数量,这段SQL会产出50行数据
select transform('for i in `seq 1 50`; do echo $i; done') using 'sh' as (data);
-- transform 方法参考下面URL
https://help.aliyun.com/document_detail/73719.html?spm=5176.21213303.J_6028563670.7.35a03eda0iPiEQ&scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%4073719.S_hot.ID_73719-RL_TRANSF%20M-OR_s%2Bhelpproduct-V_1-P0_0
--------------------------

-- 2 使用常量表多次关联,构造出需要的记录数[大家使用计算器大概算一下N的多少次方够用]
create table zb1 as 
select *
  from(
-- 10*63*63=39690
select /*+mapjoin(t2,t3)*/
       1000000 + row_number() over(partition by 1)-1 as c0
  from za1 t1 -- 63
  join za1 t2 -- 63
  join(select c0 from za1 limit 10)t3 -- 10
)t
;

--3 第2步构造的表已经达到万级,用这个表再构造的表记录数就可以轻松达到亿级

3.3. 利用随机值有序值填充列
数据种类从本质上可以分为2种,序列值和枚举值。序列值,就是有序的一个数列,使用row_number()函数来实现,在这个场景里主要定义为主键。枚举值就是少数的一些代码值(数值、金额、代码),分布在记录中,这些枚举值主要使用随机函数来填充。其他情况,目前个人还未遇到,就不描述了。
命令示例如下:

-- 1 有序值,在这个例子中,生成的数据是一个有序的从1000000-1036689的序列,可以作为业务主外键使用
select /*+mapjoin(t2,t3)*/
       1000000 + row_number() over(partition by 1)-1 as c0
  from za1 t1 -- 63
  join za1 t2 -- 63
  join(select c0 from za1 limit 10)t3 -- 10
;

-- 2 随机值/固定值,在这个例子中c2列会生成一个相对均匀的1-1000的值
-- 随机函数生成的随机数是浮点值,必须要转为bigint
select /*+mapjoin(t2,t3)*/
       1000000 + row_number() over(partition by 1)-1 as c0
      ,1617120000 as c1
      ,cast(round(rand()*999,0) as bigint)+1 as c2
  from za1 t1 -- 63
  join za1 t2 -- 63
  join(select c0 from za1 limit 10)t3 -- 10
;

3.4. 不同的数据类型的构造
一般数据类型可以分为4种,主键唯一值、字符串代表的枚举值、数值、日期时间。刚才的例子里面构造的都是数值,唯一区别的是枚举值是数字而不是文本,而且没有构造日期时间。那么如果确实需要,该怎么实现。
时间可以构造成unixtime,就可以转化为数值。文本类型的枚举值,可以先构造代码表,再构建好业务表后再关联出来(一般业务系统存储的也是代码值,而不是一个长字符串)。
命令示例如下:

-- 利用代码表转文本
with za as (
select * from values
 (1),(2),(3),(4),(5),(6),(7),(8),(9),(10),(11),(12),(13),(14),(15)
,(16),(17),(18),(19),(20),(21),(22),(23),(24),(25),(26),(27),(28),(29),(30)
,(31),(32),(33),(34),(35),(36),(37),(38),(39),(40),(41),(42),(43),(44),(45)
,(46),(47),(48),(49),(50),(51),(52),(53),(54),(55),(56),(57),(58),(59),(60)
,(61),(62),(63)
t(c0)
)
,ta as (
select * from values ('zhangsan',4),('lisi',5),('wangmazi',6) t(a,b))
select k,a,b,c
  from(
select 100 + row_number() over(partition by 1)-1 as k
      ,cast(round(rand()*3,0) as bigint)+3 as c
  from za  -- 63
 limit 3
)tb join ta on ta.b=tb.c
;
返回:
k   a   b   c
101 lisi    5   5
102 wangmazi    6   6
103 zhangsan    4   4

-- 利用unixtimetamp转日期时间
with za as (
select * from values
 (1),(2),(3),(4),(5),(6),(7),(8),(9),(10),(11),(12),(13),(14),(15)
,(16),(17),(18),(19),(20),(21),(22),(23),(24),(25),(26),(27),(28),(29),(30)
,(31),(32),(33),(34),(35),(36),(37),(38),(39),(40),(41),(42),(43),(44),(45)
,(46),(47),(48),(49),(50),(51),(52),(53),(54),(55),(56),(57),(58),(59),(60)
,(61),(62),(63)
t(c0)
)
select k
,from_unixtime(1617120000) as t
,from_unixtime(1617120000
+3600000 * c )   -- 小时
 as b
,c
  from(
select 100 + row_number() over(partition by 1)-1 as k
      ,cast(round(rand()*3,0) as bigint)+3 as c
  from za  -- 63
 limit 3
)tb 
;
返回:
k   t   b   c
100 2021-03-31 00:00:00 2021-03-31 03:00:00 3
101 2021-03-31 00:00:00 2021-03-31 05:00:00 5
102 2021-03-31 00:00:00 2021-03-31 06:00:00 6
  1. 实践

4.1. 实践案例
在前段时间经历的一个电信行业的POC项目,客户最开始给了80行真实数据,要求造十几亿左右的数据,并给了一些非常特殊的数据要求。
 原始数据和根据客户要求处理过程处理完后的数据特征的要求
记录数:单表的记录数,原始16亿,处理后1.7亿;
用户数:1千4百万;
设备数:23万;
单行记录大小:原始数据行记录436KB,处理完后是157KB;
单用户记录数(最小、最多、中位):最小值是1;最大值原始未3万,处理后是2千4百;中位数原始值是51,处理后是4;
如下表:

时间 类别 记录数 用户数 用户记录数最小 用户记录数最多 用户记录数中位 设备数 单行(KB)
9:00 原始 1668486059 14297500 1 31973 51 231272 436
9:00 处理 174817694 13371656 1 2441 4 230860 157

根据上述要求,第一步是分析业务需求,原始数据有61列,但是真实参与数据计算的列只有10列。所以,构造原始表只需要把这10列构造出来,再把原始给的61列的记录的列选取1行关联上去即可。
分析原始数据结构,选区参与计算的数据列:

create table if not exists t_log10 (
 imei_tac             int      comment '用户设备ID1' 
,phone7               int      comment '用户设备ID2'  
,imsi                 string   comment '用户设备ID3'  
,msisdn               string   comment '用户设备ID4' 
,tac                  int      comment '电信设备ID1'
,cell_id              int      comment '电信设备ID2'
,Procedure_Type       int      comment '业务类型'
,Procedure_Start_Time bigint   comment '业务开始时间,unixtimestamp'
,Procedure_status     int      comment '业务状态,固定值1'
,country_code         int      comment '国家码,固定值-406'  )
partitioned by (hh string);

电信业务中,这个业务场景描述的是用户手机设备在电信运营商基站设备上注册的情况。这个业务计算使用的字段10个。有5个是用户设备维度相关,分别是用户设备ID(1-4)和国家码;有2个是电信设备维度相关,分别是电信设备ID(1-2)。还有3个是用户设备与电信设备业务发生相关的,分别是业务类型、业务状态、业务开始时间。
所以,在做了需求分析后,我认为我需要先构建一个用户设备维度表和电信基站设备维度表,再根据这些维度表构建电信业务事实表(业务表)。
第一步,构建电信基站维度(代码)表:

drop table if exists t_tac_lacid;
create table if not exists t_tac_lacid (id bigint,tac bigint,lacid bigint);

insert overwrite table t_tac_lacid
select /*+mapjoin(t2)*/
 row_number() over(partition by 1)+100000 as rn
,t1.c0+6001  as tac
,t2.c0+1201  as lacid
from (select row_number() over(partition by 1)-1 as c0 from zb1 limit 2300)t1
join (select row_number() over(partition by 1)-1 as c0 from zb1 limit 100)t2
;
-- 230000

在这个例子,通过构建的zb1选区特定的记录数,通过笛卡尔积乘出指定的记录数的结果集。因为两个ID要构建出唯一主键,所以,这里使用了row_number窗口函数。在构建主键的时候,使用了100000+这种方式来构建固定长度的ID。
第二步,构建用户设备维度(代码)表。

drop table if exists t_user;
create table t_user (imei_tac bigint,phone7 bigint,imsi string ,msisdn string);

insert overwrite table t_user
select 
 rn as imei_tac
,cast(substr(to_char(rn),2,7) as bigint)+1000000 as phone7
,substr(MD5(rn), 1,10) as imsi
,substr(MD5(rn),11,10) as msisdn
from(
select /*+mapjoin(t2,t3,t4)*/
 row_number() over(partition by 1)+10000000 as rn
from za1 t1
join za1 t2
join za1 t3
join (select c0 from za1 limit 58) t4
-- limit 100
)t;
-- 14502726
-- 63*63*63*58 = 14502726

在这个例子,通过4次使用za1这个表构建了一个看起来很真实的记录数(实际上造数据差几条没区别,这里有点无聊)。使用row_number窗口函数构建了业务主键,并转化了几种形式(MD5截取)构建了不同的主键的样式。然后使用了随机函数构建了基站信息。这里面实际上把基站信息也做了计算,这些特殊处理主要是为了构建最后的结果表。
最后一步就是构建结果表了,因为前面我们还没有考虑中位数、极值和处理后结果的问题,所以,实际上最后的实现比较复杂(太长了,就不粘出来了,有需要单独找我要吧)。
满足特殊要求的方法是用户分段:
1) 极值,非常小的用户记录数满足用户极值[例如选500个用户]
2) 中位数,中位数一定是超过了一半以上的用户的记录数
3) 补充数,除去极值与中位数剩下的用户
需要使用提示来改善性能,因为造数据的原始表都非常小,map阶段一般只有1个worker。所以,必须要把map阶段的数据块输入切小,把map和reduce的资源给大了。

set odps.sql.mapper.cpu=200;
set odps.sql.mapper.memory=8192;
set odps.sql.mapper.split.size=4;
set odps.sql.reducer.cpu=200;
set odps.sql.reducer.memory=8192;

4.2. 总结
造数据场景大部分时候都比较简单,但是,也会遇到上述这种特殊的复杂情况。但是复杂的业务主要还是考验数据加工的能力,怎么使用基础表生成复杂表,还是关系数据库的关系模型的构建的过程。
单个数据表的构建,首先需要先分析出业务中的维度和事实的部分,再构建维度,利用维度构建事实。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
50 7
|
5天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
15 2
|
17天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
58 1
|
12天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
28 3
|
12天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
42 2
|
14天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
47 2
|
16天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
49 2
|
19天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
22天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。
|
22天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
48 2

相关产品

  • 云原生大数据计算服务 MaxCompute