大数据之路:阿里巴巴大数据实践——OneData数据中台体系

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。

OneData概述

  • 核心痛点:指标口径混乱、模型重复建设、数据孤岛、开发效率低下。

  • OneData:阿里巴巴内部进行数据整合及管理的方法体系和工具。

  • 规范定义层(治本之策)

    • 业务术语标准化:建立集团级业务知识库(如明确定义“支付成功订单”:已付款 + 未退款 + 物流签收)。

    • 指标分层管控

      原子指标:用来描述某个特定的事件、行为或状态,如销售额、播放量、转化率等。

      衍生指标:由原子指标、时间周期、维度三大要素构成,用于统计目标指标在具体时间、维度、业务条件下的数值表现。

      复合指标:通过对原子指标进行计算得出,如CTR = 点击量 / 曝光量。

  • 模型设计层(架构核心)

    • 主题域垂直拆分:主题域(用户、商品、交易、直播、物流等)隔离业务复杂性。

    • 三层建模体系

层级 目标 关键创新
ODS 数据原貌保留 增量合并(Merge)技术
CDM 通用模型沉淀 全局维度代理键(user_sk)
ADS 场景化优化 实时宽表预聚合
  • 工具平台层(落地引擎)

    • DataWorks:可视化建模 + SQL自动生成(效率提升50%)。

    • DDM(数据开发监控):血缘分析精准评估变更影响。

    • Qualitis:3000+质量规则库(如主键唯一性校验)。

image-20250802132827694

规范定义

  • 指标规范化体系(核心创新)

    • 数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。
    • 业务过程:指企业的业务活动事件,如下单、支付、退款都是业务过程,业务过程是不可拆分事件。
    • 时间周期:用来明确数据统计的时间范围或者时间点。
    • 修饰类型:是对修饰词的一种抽象划分,修饰类型从属于某个业务域,如访问终端IOS端、 PC端等修饰词。
    • 原子指标:基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标。
    • 维度:维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。
    • 维度属性:维度属性隶属于一个维度,如地理维度里面的国家、ID、身份名称都属于维度属性。
    • 派生指标:一个原子指标 + 多个修饰词 + 时间周期。
  • 派生指标

    • 事务型指标:对业务活动进行衡量的指标,如订单支付金额、新增注册会员数等。
    • 存量型指标:是指对实体对象某些状态的统计,如商品总数、播放量等。
    • 复合型指标:在事务型指标和存量型指标的基础上复合而成的指标,如CTR、CVR等。

模型设计

  • 模型层次
    • 操作数据层( ODS ):把操作系统数据几乎无处理地存放在数据仓库系统中。
    • 公共维度模型层( CDM ):存放明细事实数据、维表数据及公共指标汇总数据。
    • 应用数据层( ADS ):存放数据产品个性化的统计指标数据,根据 CDM 层与 ODS 层加工生成。
  • 基本原则
    • 高内聚:将业务相近或者相关、粒度相同的数据设计为一个 逻辑或者物理模型。
    • 低耦合:将高概率同时访问的数据放一起 ,将低概率同时访问的数据分开存储。
    • 核心模型与扩展模型分离:核心模型包括的宇段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要。
    • 公共处理逻辑下沉及单一:底层公用的处理逻辑越在数据调度依赖的底层进行封装与实现,不要暴露给应用层实现。
    • 成本与性能平衡:适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。
    • 数据可回滚:处理逻辑不变,在不同时间多次运行数据结果确定不变。
    • 一致性:具有相同含义的字段在不同表中的命名必须相同,必须使用规范定义中的名称。

模型实施

  • Kimball 模型
    • 高层模型:高层模型设计阶段的直接产出目标是创建高层维度模型图,它是对业务过程中的维表和事实表的图形描述。
    • 详细模型:详细的维度建模过程是为高层模型填补缺失的信息,解决设计问题,确保模型的完备性。
    • ETL 设计和开发:完成模型详细设计文档,进入 ETL 设计和开发阶段。
  • Inmon模型
    • ERD层(Entity Relationship Diagram):描述了公司业务中的实体或主题域以及它们之间的关系。
    • DIS层(Data Item Set):描述了数据模型中的关键字、属性以及细节数据之间的关系。
    • 物理层:物理层是数据建模的最底层,该层描述了数据模型的物理特性。
  • 数仓建模
    • 业务建模:生成业务模型,主要解决业务层面的分解和程序化。
    • 领域建模:生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。
    • 逻辑建模:生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。
    • 物理建模:生成物理模型,主要解决逻辑模型针对不同关系数据 库的物理化以及性能等些具体的技术问题。
  • OneData建模
    • 数据域划分:数据域是指面向业务分析,将业务过程或者维度进行抽象的集合,如商品、交易、直播业务域等。
    • 构建总线矩阵:明确每个数据域下有哪些业务过程;业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。
    • 规范定义:规范定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。
    • 模型设计:模型设计主要包括维度及属性的规范定义,维表、明细事实表和汇 总事实表的模型设计。
相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
2月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
2月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
7天前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
2月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
Shell Android开发
Android系统 adb shell push/pull 禁止特定文件
Android系统 adb shell push/pull 禁止特定文件
1176 1
|
Android开发 Python
Python封装ADB获取Android设备wifi地址的方法
Python封装ADB获取Android设备wifi地址的方法
324 0
|
开发工具 Android开发
Mac 安卓(Android) 配置adb路径
Mac 安卓(Android) 配置adb路径
1319 0
|
22天前
|
开发工具 Android开发
X Android SDK file not found: adb.安卓开发常见问题-Android SDK 缺少 `adb`(Android Debug Bridge)-优雅草卓伊凡
X Android SDK file not found: adb.安卓开发常见问题-Android SDK 缺少 `adb`(Android Debug Bridge)-优雅草卓伊凡
250 11
X Android SDK file not found: adb.安卓开发常见问题-Android SDK 缺少 `adb`(Android Debug Bridge)-优雅草卓伊凡
|
7月前
|
监控 Shell Linux
Android调试终极指南:ADB安装+多设备连接+ANR日志抓取全流程解析,覆盖环境变量配置/多设备调试/ANR日志分析全流程,附Win/Mac/Linux三平台解决方案
ADB(Android Debug Bridge)是安卓开发中的重要工具,用于连接电脑与安卓设备,实现文件传输、应用管理、日志抓取等功能。本文介绍了 ADB 的基本概念、安装配置及常用命令。包括:1) 基本命令如 `adb version` 和 `adb devices`;2) 权限操作如 `adb root` 和 `adb shell`;3) APK 操作如安装、卸载应用;4) 文件传输如 `adb push` 和 `adb pull`;5) 日志记录如 `adb logcat`;6) 系统信息获取如屏幕截图和录屏。通过这些功能,用户可高效调试和管理安卓设备。
|
Shell Linux 开发工具
"开发者的救星:揭秘如何用adb神器征服Android设备,开启高效调试之旅!"
【8月更文挑战第20天】Android Debug Bridge (adb) 是 Android 开发者必备工具,用于实现计算机与 Android 设备间通讯,执行调试及命令操作。adb 提供了丰富的命令行接口,覆盖从基础设备管理到复杂系统操作的需求。本文详细介绍 adb 的安装配置流程,并列举实用命令示例,包括设备连接管理、应用安装调试、文件系统访问等基础功能,以及端口转发、日志查看等高级技巧。此外,还提供了常见问题的故障排除指南,帮助开发者快速解决问题。掌握 adb 将极大提升 Android 开发效率,助力项目顺利推进。
375 0

热门文章

最新文章