词根
可以用来统一表名、字段名、主题域名等等
序号 |
名称 |
代码 |
简写 |
类型 |
样式 |
所属主题域 |
1 |
数量 |
count |
cnt |
bigint |
||
2 |
金额 |
amout |
amt |
bigint |
||
3 |
比率/占比 |
ratio |
ratio |
decimal |
||
4 |
平均 |
average |
avg |
decimal |
||
5 |
标准差 |
standarddeviation |
std |
decimal |
||
6 |
活跃 |
active |
act |
string |
||
7 |
设备id |
device_id |
dev_id |
string |
||
8 |
用户id |
user_id |
uid |
string |
||
9 |
首次 |
first |
fst |
string |
||
10 |
末次 |
last |
lst |
string |
||
11 |
角色id |
role_id |
role_id |
string |
||
12 |
排序id |
sort_num |
sort_id |
integer |
||
13 |
NFT的链上id |
serial_num |
ser_id |
string |
||
14 |
NFT当前所属区 |
region_id |
region_id |
string |
||
15 |
游戏ID |
game_id |
game_id |
string |
||
16 |
成功 |
success |
succ |
boolean |
||
17 |
支付 |
pay |
pay |
boolean |
||
18 |
地址 |
address |
addr |
string |
||
19 |
订单 |
order |
order |
string |
||
20 |
渠道 |
channel |
chl |
string |
||
21 |
完成 |
finsh |
fin |
boolean |
||
22 |
日期(分区字段) |
datetime |
dt |
string |
2018-02-24 |
|
23 |
星期一 |
Monday |
Mon |
string |
||
24 |
星期二 |
Tuesday |
Tue |
string |
||
25 |
星期三 |
Wednesday |
Wed |
string |
||
26 |
星期四 |
Thursday |
Thur |
string |
||
27 |
星期五 |
Friday |
Fri |
string |
||
28 |
星期六 |
Saturday |
Sat |
string |
||
29 |
星期日 |
Sunday |
Sun |
string |
||
库表命名规则
聚合粒度以及加工频率字段说明
字段中文 |
字段 |
字段全称 |
说明 |
日 |
d |
day |
每天 |
周 |
w |
week |
每周 |
月 |
m |
month |
每月 |
年 |
y |
year |
每年 |
小时 |
h |
hour |
每小时 |
半小时 |
hh |
halfhour |
每半小时 |
抽取方式字段说明
抽取方式 |
字段 |
字段全称 |
全量 |
f |
full |
增量 |
i |
incremental |
拉链 |
c |
chain |
临时 |
tmp |
temporary |
中间 |
m |
middle |
测试 |
t |
test |
数据表命名说明
ods(odm)层
数据表名:odm_{业务线}_{数据源}_{库名}_{表名}_{增量(incr)/全量(full)}_{更新时间频次}
例子:
1)mysql:odm_{业务线}_mysql_{db_name}_{mysql_table_name}_incr_day
2)hbase:odm_{业务线}_hbase_{db_name}_{hbase_table_name}_incr_day
3)kafka:odm_{业务线}_kafka_{cluster_name}_{topic_name}_incr_day
4)redis:odm_{业务线}_redis_{cluster_name}_incr_day
5)kudu:odm_{业务线}_kudu_{db_name}_{kudu_table_name}_incr_day
dwd(edm)层
数据表名:edm_{业务域}_{一级主题}_{二级主题}_{业务过程概要}_{增量(incr)/全量(full)}_{更新时间频次}
例子:
edm_news_content_operation_bros_detail_incr_day:新闻业务,内容主题,内容运营每日增量入池内容头条阅读表
dws(gdm)层
数据表名:gdm_{业务域}_{一级主题}_{二级主题}_{业务过程概要}_{增量(incr)/全量(full)}_{更新时间频次}
app(adm)层
数据表名:adm_{业务域}_{功能域}_{统计描述}_{更新时间频次}
例子:
adm_news_zhizi_second_bid_ad_report_day:新闻业务,按天增量统计的智子二期竞价广告侧报表
dim(ddm)层
数据表名:ddm_{业务域}_{主题}_{实体}_{增量(incr)/全量(full)}_{更新时间频次}
例子:
ddm_content_doc_full_day:文章信息天级全量表
数据仓库指标构建流程
指标管理
指标:指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据,一般通过对某个字段的某种计算得到(比如求和、均值等)。
指标 = 业务维度描述 + 技术维度描述
修饰词:是对原子指标进行修饰限定的词汇,对应着明确的业务场景和业务规则,用于圈定原子指标业务统计的范围。
指标的分类:
1)原子指标:原子指标就是度量,对某一业务事件进行度量,有明确的业务含义,比如支付金额等。具有明确的业务含义且在逻辑层面不可再拆分。
原子指标隶属于业务过程,一般在事实表中包含,所以创建原子指标时必须选择所属的业务过程。原子命名规范可由业务修饰词 + 词根组成:
2)派生指标:对原子指标业务统计范围的确定。由一个原子指标+修饰词+时间周期组成。
派生指标唯一归属一个原子指标,继承原子指标的数据域。
派生指标可以分为三类:事务型指标、存量型指标。按照其特性不同,有些必须新建原子指标,有些可以在其他类型原子指标的基础上增加修饰词形成衍生指标。
事务型指标:是指对业务过程进行衡量的指标,如近N天支付金额。这类指标需维护原子指标及修饰词,在此基础上创建衍生指标。
存量型指标:是指对实体对象某些状态的统计,对应的时间周期一般为”历史截止当前某个时间“。这类指标需维护原子指标及修饰词,在此基础上创建衍生指标。
3)复合指标:建立在原子指标、派生指标之上,通过一定运算规则形成的计算指标集合,常见有以下几种:
- 比率型:比如xxxCTR、xxx满意度。这种情况下需要创建原子指标,比如创建CTR、满意度等原子指标。
- 比例型:比如xxx百分比,xxx占比。这种情况下需要创建原子指标,比如创建播放歌曲人数占比。
- 变化量型:比如xxx指标相对上N天的变化量。这种情况下不不创建原子指标,增加统计方法相关的修饰词,然后在此基础上创建衍生指标,比如上N天变化量的修饰词。
- 变化率型:比如xxx指标相对上N天的变化率。这种情况需要创建xxx变化率原子指标。
- 统计型:比如人均、次均,xxx分位数等。这种情况下不创建原子指标,增加统计方法相关的修饰词,在此基础上创建衍生指标。
- 排名型:一般为TOP_xxx_xxx。这种情况下创建原子指标,比如top_n_支付金额,在此基础上创建衍生指标。
指标字典
1、指标字典是什么?
指标字典是业务数据标准化的基础,目的是对指标进行统一管理, 方便共享达成对业务指标的共识,并统一修改和维护。 指标字典可以更新在excel或者指标管理平台。如果有足够多的的资源, 那么开发指标管理模块可以放在数据管理系统再配合血缘关系, 就方便追踪数据流转了。
2、设计指标字典的目的?
.规范维度和量度命名,命名规则要明确,通用,易懂。 (2).对维度或量度统一计算口径,避免歧义。 (3).涵盖尽可能多的关注的核心维度和量度,以此为基础推动数据建设,确保指标字典里覆盖的维度都可区分、指标都可统计。 (4).基于指标字典,将核心维度和量度注入元数据中心,接入指标提取工具,后续实现不需要写SQL语句即可完成自助查询及分析需求
3、制定指标字典主要包含哪些方面?
(1)主题或者场景:根据模块或主题分类 (2)指标类型:说明指标的作用 (3)给指标制定编号:方便统计,也避免后续有相同的指标可以跳过 (4)推荐图表:根据不同的指标类型,推荐相应的展现图表 (5)指标名称:列出所有的指标名称 (6)计算公式:统一确定指标的计算公式 (7)数据源:确定数据的来源 (8)维度:确定分析的维度,以及数据分析的粒度 (9)指标说明:说明制定指标的意义 (10)分析的动作
4、指标字典模版
指标编号 |
主题模块 |
指标类别 |
指标名称 |
推荐呈现方式 |
计算公式 (统计口径) |
指标说明 |
数据源 |
维度一 |
维度二 |
指标建设方法论
1 北极星指标法
北极星指标也叫唯一关键指标(OMTM,One metric that matters),产品现阶段最关键的指标。其实简单说来就是公司制定的发展目标,不同阶段会有不同的目标。为什么叫“北极星”指标,其实大概的寓意就是要像北极星一样指引公司前进的方向,目标制定最好是能符合SMART原则。
2 OSM模型
OSM模型是三个词缩写:目标(Objective)、策略(Strategy)、度量(Measurement)。
它是一套业务分析框架,并非算法模型,适用于目标已经清晰、行动方向已经明确的情况。
以网易新闻业务为例:
O:结合北极星指标法,首先确定公司级的目标,DAU增长。接下来运行OSM模型可以把宏大的目标拆解,对应到部门内各个小组具体的、可落地、可度量的行为上,从保证执行计划没有偏离大方向。
S:DAU增长,可以做哪些策略呢?
- 提高新用户规模
- 提高留存用户规模
- 提高回流用户规模
M:用什么来评价策略是否达成?
- 新用户数
- 留存用户数
- 回流用户数
这只是做了第一级拆解,我们还可以把评价的度量再做成目标,继续拆解。
O:新增用户数
S:新用户数增长,可以做哪些策略?比如站外渠道引流、老用户拉新等
M:评价指标是渠道新增用户数、老用户拉新人数。
通过一级一级的拆解,这样就形成了指标体系。
3 AARRR模型
麦克卢尔将创业公司最需要关注的指标分为五大类:获取用户(Acquisition)、提高活跃(Activation)、提高留存率(Retention)、获取营收(Revenue)和自传播(Referral),简称AARRR。每个环节都有这个环节应该关注的指标,这些环节并不一定遵循严格的先后顺序。
以新闻业务为例: