《全链路数据治理-智能数据建模 》——产品实操:零售电商数据建模操作实践(3)

简介: 《全链路数据治理-智能数据建模 》——产品实操:零售电商数据建模操作实践(3)

《全链路数据治理-智能数据建模 》——产品实操:零售电商数据建模操作实践(2) https://developer.aliyun.com/article/1230569?groupCode=tech_library



二、 维度建模


维度建模储备知识介绍。


1. 基本概念

智能建模强依赖于Kimball 维度建模理论,在实操前务必阅读一下数仓分层和维度

建模中的基本概念。


维度建模:详情请参见维度建模。


业务分类:当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希

望能在模型设计和应用过程中快速定位本业务的数据,可结合真实业务情况,规划

不同的业务分类,在后续模型设计过程中,可将模型归属到对应的业务分类,提升

后续模型使用的便捷性。例如零售电子商务就是一个一级业务分类,如需进一步细

分,可分为门店零售,电子商务等。


数据域:是对企业业务过程进行抽象、提炼、组合的集合,是企业业务人员在使用

数据时第一个分组入口,可以帮助企业业务人员快速的从海量的数据中快速圈定到

自己的业务数据。例如在电商领域,可以划分会员域、商品域、交易域等。

业务过程:业务过程指企业的业务活动事件,如下单,支付。


数据集市:是基于业务分类,面向特定应用场景或者产品的数据组织。通常位于数

据应用层,依赖于公共层的整合数据。例如电商集市、生意参谋集市等。


主题域:用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题

的集合。例如在电商集市下,可以创建电商360、活动等主题域。


维度:维度是用于分析数据的一个角度,一方面对维度进行可控管理,另一方面指

导维度表的设计,如地理维度,时间维度。


维度属性:维度属性隶属于一个维度,用来描述维度的属性,如地理维度中的国家

名称,省份名称。


时间周期:时间周期是用来明确数据统计的时间范围或者时间点,如最近30 天,自

然周。


修饰词:修饰词是对指标统计业务范围的划定,指除了统计维度外指标的业务场景

的限定抽象,如PC 端,无线端。


原子指标:用于明确业务的统计口径和计算逻辑,是基于用户的业务活动(即业务

过程)创建的,用于统计业务活动中某一业务状况的数值。例如,存量会员数。


派生指标:由原子指标、时间周期、修饰词构成,用于反映企业某一业务活动在指

定时间周期及目标范围中的业务状况。例如,历史截至当日(时间周期)_异常会员

(修饰词)_存量会员数(原子指标)。



• 数仓分层:详情请参见数仓分层

• 数据引入层ODS(Operation Data Store)

• 数据公共层CDM(Common Data Model,又称通用数据模型层)

􎛏 公共维度层(DIM)

􎛏 公共汇总粒度事实层(DWS)

􎛏 明细粒度事实层(DWD)


• 数据应用层ADS(Application Data Service)




《全链路数据治理-智能数据建模 》——产品实操:零售电商数据建模操作实践(4) https://developer.aliyun.com/article/1230565?groupCode=tech_library

相关文章
|
4月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
Python
使用python合并文档
使用python合并文档
347 0
|
11月前
|
小程序 Java 关系型数据库
weixin117新闻资讯系统设计+springboot(文档+源码)_kaic
本文介绍了一款基于微信小程序的新闻资讯系统,涵盖其开发全过程。该系统采用Java的SSM框架进行后台管理开发,使用MySQL作为本地数据库,并借助微信开发者工具确保稳定性。管理员可通过个人中心、用户管理等功能模块实现高效管理,而用户则能注册登录并查看新闻与视频内容。系统设计注重可行性分析(技术、经济、操作),强调安全性与数据完整性,界面简洁易用,功能全面,极大提升了信息管理效率及用户体验。关键词包括基于微信小程序的新闻资讯系统、SSM框架和MYSQL数据库。
|
数据采集 自然语言处理 数据挖掘
利用ChatGPT进行数据分析——如何提出一个好的prompt
利用ChatGPT进行数据分析——如何提出一个好的prompt
599 0
|
消息中间件 关系型数据库 Kafka
一种小资源情况下RDS数据实时同步StarRocks方案
使用一台4C8 G服务器轻松实现2个MySQL实例中通过负责分库分表规则之后的5000多张表的数据实时同步到StarRocks
603 67
|
存储 分布式计算 资源调度
如何8步完成hadoop单机安装
本文介绍了在Ubuntu 20.04上安装和配置Hadoop 3.3.6的详细步骤。首先更新系统并安装Java环境,接着下载、解压Hadoop并配置环境变量。然后编辑核心配置文件`core-site.xml`和`hdfs-site.xml`,格式化HDFS文件系统,并启动Hadoop服务。最后通过`jps`命令和浏览器访问Web界面验证安装是否成功。Hadoop是一个开源框架,用于分布式存储和处理大规模数据集,其核心组件包括HDFS、MapReduce和YARN。
752 6
|
12月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天 Arm 架构深入探讨
飞天技术沙龙回顾:业务创新新选择,倚天 Arm 架构深入探讨
312 1
|
数据采集 存储 数据挖掘
基于 StarRocks 的风控实时特征探索和实践
【6月更文挑战第9天】StarRocks 是一款高性能分析型数据库,适用于风控实时特征处理,提供快速数据分析,助力企业高效准确的风控决策。通过建立适合的数据模型,收集整合实时特征数据,并利用 StarRocks 的实时加载与查询功能,企业能实时计算风险指标。同时,确保数据准确性、一致性和完整性,以及进行性能优化,是实现高效风控的关键。随着业务发展,持续优化 StarRocks 应用将帮助企业应对复杂风险挑战,推动健康发展。
354 8
|
数据采集 自然语言处理 数据可视化
使用爬虫技术从今日头条获取社会热点
今日头条是一款基于数据挖掘的推荐引擎产品,能够为用户提供个性化的信息流,涵盖了新闻、视频、娱乐、体育等多个领域。今日头条的内容来源于各大媒体、自媒体、网友等,具有丰富性和多样性。利用爬虫技术,我们可以从今日头条中获取社会热点和舆情分析,为我们的决策和研究提供有价值的数据和洞察。
1098 0
使用爬虫技术从今日头条获取社会热点

热门文章

最新文章