数据仓库常见规范

简介: 数据仓库常见规范

词根

可以用来统一表名、字段名、主题域名等等

序号

名称

代码

简写

类型

样式

所属主题域

1

数量

count

cnt

bigint



2

金额

amout

amt

bigint



3

比率/占比

ratio

ratio

decimal



4

平均

average

avg

decimal



5

标准差

standarddeviation

std

decimal



6

活跃

active

act

string



7

设备id

device_id

dev_id

string



8

用户id

user_id

uid

string



9

首次

first

fst

string



10

末次

last

lst

string



11

角色id

role_id

role_id

string



12

排序id

sort_num

sort_id

integer



13

NFT的链上id

serial_num

ser_id

string



14

NFT当前所属区

region_id

region_id

string



15

游戏ID

game_id

game_id

string



16

成功

success

succ

boolean



17

支付

pay

pay

boolean



18

地址

address

addr

string



19

订单

order

order

string



20

渠道

channel

chl

string



21

完成

finsh

fin

boolean



22

日期(分区字段)

datetime

dt

string

2018-02-24


23

星期一

Monday

Mon

string



24

星期二

Tuesday

Tue

string



25

星期三

Wednesday

Wed

string



26

星期四

Thursday

Thur

string



27

星期五

Friday

Fri

string



28

星期六

Saturday

Sat

string



29

星期日

Sunday

Sun

string































库表命名规则

 

聚合粒度以及加工频率字段说明

字段中文

字段

字段全称

说明

d

day

每天

w

week

每周

m

month

每月

y

year

每年

小时

h

hour

每小时

半小时

hh

halfhour

每半小时

抽取方式字段说明

抽取方式

字段

字段全称

全量

f

full

增量

i

incremental

拉链

c

chain

临时

tmp

temporary

中间

m

middle

测试

t

test

数据表命名说明

ods(odm)层

数据表名:odm_{业务线}_{数据源}_{库名}_{表名}_{增量(incr)/全量(full)}_{更新时间频次}

例子:

1)mysql:odm_{业务线}_mysql_{db_name}_{mysql_table_name}_incr_day

2)hbase:odm_{业务线}_hbase_{db_name}_{hbase_table_name}_incr_day

3)kafka:odm_{业务线}_kafka_{cluster_name}_{topic_name}_incr_day

4)redis:odm_{业务线}_redis_{cluster_name}_incr_day

5)kudu:odm_{业务线}_kudu_{db_name}_{kudu_table_name}_incr_day

 dwd(edm)层

数据表名:edm_{业务域}_{一级主题}_{二级主题}_{业务过程概要}_{增量(incr)/全量(full)}_{更新时间频次}

例子:

edm_news_content_operation_bros_detail_incr_day:新闻业务,内容主题,内容运营每日增量入池内容头条阅读表

dws(gdm)层

数据表名:gdm_{业务域}_{一级主题}_{二级主题}_{业务过程概要}_{增量(incr)/全量(full)}_{更新时间频次} 

app(adm)层

数据表名:adm_{业务域}_{功能域}_{统计描述}_{更新时间频次}

例子:

adm_news_zhizi_second_bid_ad_report_day:新闻业务,按天增量统计的智子二期竞价广告侧报表

dim(ddm)层

数据表名:ddm_{业务域}_{主题}_{实体}_{增量(incr)/全量(full)}_{更新时间频次}

例子:

ddm_content_doc_full_day:文章信息天级全量表

数据仓库指标构建流程

60a6bcefe26f4b118e50f46e4d0afd1d.png

指标管理

指标:指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据,一般通过对某个字段的某种计算得到(比如求和、均值等)。

指标 = 业务维度描述 + 技术维度描述

修饰词:是对原子指标进行修饰限定的词汇,对应着明确的业务场景和业务规则,用于圈定原子指标业务统计的范围。

标的分类:

75f0e2306cfe4b549332ab598e15c984.png

1)原子指标原子指标就是度量,对某一业务事件进行度量,有明确的业务含义,比如支付金额等。具有明确的业务含义且在逻辑层面不可再拆分。

原子指标隶属于业务过程,一般在事实表中包含,所以创建原子指标时必须选择所属的业务过程。原子命名规范可由业务修饰词 + 词根组成:

60a6bcefe26f4b118e50f46e4d0afd1d.png

2)派生指标对原子指标业务统计范围的确定。由一个原子指标+修饰词+时间周期组成。

60a6bcefe26f4b118e50f46e4d0afd1d.png

派生指标唯一归属一个原子指标,继承原子指标的数据域。

派生指标可以分为三类:事务型指标、存量型指标。按照其特性不同,有些必须新建原子指标,有些可以在其他类型原子指标的基础上增加修饰词形成衍生指标。

事务型指标:是指对业务过程进行衡量的指标,如近N天支付金额。这类指标需维护原子指标及修饰词,在此基础上创建衍生指标。

存量型指标:是指对实体对象某些状态的统计,对应的时间周期一般为”历史截止当前某个时间“。这类指标需维护原子指标及修饰词,在此基础上创建衍生指标。


3)复合指标:建立在原子指标、派生指标之上,通过一定运算规则形成的计算指标集合,常见有以下几种:

  • 比率型:比如xxxCTR、xxx满意度。这种情况下需要创建原子指标,比如创建CTR、满意度等原子指标。
  • 比例型:比如xxx百分比,xxx占比。这种情况下需要创建原子指标,比如创建播放歌曲人数占比。
  • 变化量型:比如xxx指标相对上N天的变化量。这种情况下不不创建原子指标,增加统计方法相关的修饰词,然后在此基础上创建衍生指标,比如上N天变化量的修饰词。
  • 变化率型:比如xxx指标相对上N天的变化率。这种情况需要创建xxx变化率原子指标。
  • 统计型:比如人均、次均,xxx分位数等。这种情况下不创建原子指标,增加统计方法相关的修饰词,在此基础上创建衍生指标。
  • 排名型:一般为TOP_xxx_xxx。这种情况下创建原子指标,比如top_n_支付金额,在此基础上创建衍生指标。

指标字典

1、指标字典是什么?

指标字典是业务数据标准化的基础,目的是对指标进行统一管理,
方便共享达成对业务指标的共识,并统一修改和维护。
指标字典可以更新在excel或者指标管理平台。如果有足够多的的资源,
那么开发指标管理模块可以放在数据管理系统再配合血缘关系,
就方便追踪数据流转了。

2、设计指标字典的目的?

.规范维度和量度命名,命名规则要明确,通用,易懂。
(2).对维度或量度统一计算口径,避免歧义。
(3).涵盖尽可能多的关注的核心维度和量度,以此为基础推动数据建设,确保指标字典里覆盖的维度都可区分、指标都可统计。
(4).基于指标字典,将核心维度和量度注入元数据中心,接入指标提取工具,后续实现不需要写SQL语句即可完成自助查询及分析需求

3、制定指标字典主要包含哪些方面?

 

(1)主题或者场景:根据模块或主题分类
(2)指标类型:说明指标的作用
(3)给指标制定编号:方便统计,也避免后续有相同的指标可以跳过
(4)推荐图表:根据不同的指标类型,推荐相应的展现图表
(5)指标名称:列出所有的指标名称
(6)计算公式:统一确定指标的计算公式
(7)数据源:确定数据的来源
(8)维度:确定分析的维度,以及数据分析的粒度
(9)指标说明:说明制定指标的意义
(10)分析的动作

4、指标字典模版

指标编号

主题模块

指标类别

指标名称

推荐呈现方式

计算公式

(统计口径)

指标说明

数据源

维度一

维度二





















指标建设方法论

1 北极星指标法

北极星指标也叫唯一关键指标(OMTM,One metric that matters),产品现阶段最关键的指标。其实简单说来就是公司制定的发展目标,不同阶段会有不同的目标。为什么叫“北极星”指标,其实大概的寓意就是要像北极星一样指引公司前进的方向,目标制定最好是能符合SMART原则。


2 OSM模型

OSM模型是三个词缩写:目标(Objective)、策略(Strategy)、度量(Measurement)。

它是一套业务分析框架,并非算法模型,适用于目标已经清晰、行动方向已经明确的情况。

60a6bcefe26f4b118e50f46e4d0afd1d.png


以网易新闻业务为例:

O:结合北极星指标法,首先确定公司级的目标,DAU增长。接下来运行OSM模型可以把宏大的目标拆解,对应到部门内各个小组具体的、可落地、可度量的行为上,从保证执行计划没有偏离大方向。


S:DAU增长,可以做哪些策略呢?

  • 提高新用户规模
  • 提高留存用户规模
  • 提高回流用户规模

M:用什么来评价策略是否达成?

  • 新用户数
  • 留存用户数
  • 回流用户数


这只是做了第一级拆解,我们还可以把评价的度量再做成目标,继续拆解。

O:新增用户数

S:新用户数增长,可以做哪些策略?比如站外渠道引流、老用户拉新等

M:评价指标是渠道新增用户数、老用户拉新人数。


通过一级一级的拆解,这样就形成了指标体系。

60a6bcefe26f4b118e50f46e4d0afd1d.png

3 AARRR模型

麦克卢尔将创业公司最需要关注的指标分为五大类:获取用户(Acquisition)、提高活跃(Activation)、提高留存率(Retention)、获取营收(Revenue)和自传播(Referral),简称AARRR。每个环节都有这个环节应该关注的指标,这些环节并不一定遵循严格的先后顺序。

60a6bcefe26f4b118e50f46e4d0afd1d.png

以新闻业务为例:

60a6bcefe26f4b118e50f46e4d0afd1d.png

60a6bcefe26f4b118e50f46e4d0afd1d.png

相关文章
|
6月前
|
存储 数据挖掘 BI
离线数据仓库规范
离线数据仓库规范
|
存储 SQL 数据采集
数据仓库建设规范
数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从 ODS 层中获 得的数据按照主题建立各种数据模型。DW 层又细分为 DWD (Data Warehouse Detail) 层、DWM (Data WareHouse Middle) 层和 DWS (Data WareHouse Servce) 层。
数据仓库建设规范
|
存储 SQL 运维
一篇文章搞懂数据仓库:数据仓库规范设计
一篇文章搞懂数据仓库:数据仓库规范设计
一篇文章搞懂数据仓库:数据仓库规范设计
|
数据采集 SQL 监控
浅谈数据仓库质量管理规范
浅谈数据仓库质量管理规范
231 0
|
数据采集 存储 SQL
|
数据采集 存储 SQL
|
存储 大数据 数据挖掘
|
数据采集
数据仓库专题22-网络用户行为数据采集标准规范设计
一、前言    网络用户行为数据采集的趋势渐成,尤其是移动应用普及的今天,不再只是传统的互联网公司的专宠,传统企业也是趋之若鹜。但是遗憾的却始终没有一个规范标准,全凭企业自发与自愿的到底底线来控制,数据立法尚未见曙光,无德者如支付宝,通讯录、短信已经不能满足他们的窥私欲,改而录音,偷拍种种,无所不用其极。
892 0
|
3月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
4月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章