《阿里大数据之路》读书笔记:总述

简介: 阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

第一章 总述

阿里巴巴大数据系统体系架构图

阿里数据体系主要分为数据采集数据计算数据服务数据应用四大层次。

image.png

一、数据采集层

阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。

数据来源主要有两部分:

  • 业务数据:主要存在数据库中
  • 日志数据:主要来自于日志文件

日志采集技术:

  • Aplus.JS:Web端日志采集技术方案
  • UserTrack:APP 端日志采集技术方案

消息中间件(离线/实时):

  • TimeTunnel (TT ):既包括数据库的增量数据传输,也包括日志数据的传输

数据库同步工具(离线):直连异构数据库(备库)来抽取各种时间窗口的数据。

  • DataX/同步中心:同步中心是基于DataX易用性封装的

二、数据计算层

数据被整合和计算后,才能被挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。

两大体系:

  • 数据存储及计算云平台(离线计算平台(MaxCompute)、实时计算平台(Strea Compute))
  • 数据整合及管理体系:阿里内部称之为“OneData ”,数据整合及管理的方法体系和工具

数据仓库:

  • 离线数仓:传统数仓。主要以天(包含小时、周和月)为单位,如T-1,则每天凌晨处理上一天的数据。
  • 实时数仓:流式数据

数仓的建设遵循业界的分层理念,传统的数据加工链路包括以下几层:

  • 数据层:Operational Data Store,ODS
  • 明细数据层:Data Warehouse Detail,DWD
  • 汇总数据层:Data Warehouse Summary,DWS
  • 应用数据层:Application Data Store,ADS

数仓不同层次之间的加工实现了数据资产向信息资产的转化,整个过程还进行了有效的元数据管理数据质量处理

元数据模型整合及应用:主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工具类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据管理等 ,如用于存储、计算和成本管理等。

三、数据服务层

目的:数据被整合和计算好之后,可以提供给产品和应用进行消费。

数据服务层以数据仓库整合计算好的数据作为数据源,可以架构在多种数据库之上,如MySQL和HBase等。

数据服务层主要通过统一的数据服务平台对外提供数据服务通过接口服务化方式对外提供数据服务。通过接口堆外提供的数据服务主要包括:

  • 简单数据查询服务
  • 复杂数据查询服务
  • 实时数据推送服务

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给各应用使用。

四、数据应用层

数据准备好了,可以提供给其他部门使用,比如索、推荐、广告等应用。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
弹性计算 分布式计算 大数据
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
|
10月前
|
存储 移动开发 算法
《阿里大数据之路》读书笔记:第二章 日志采集
《阿里大数据之路》读书笔记:第二章 日志采集
|
5月前
|
大数据 BI
阿里十年大数据专家谈“云上数据中台之道”含内部PPT
从大数据的概念被正式提出,到马云老师预言人类正从IT时代走向DT时代,大数据浪潮迭起。大数据同仁共同认知的一点是,大数据会对社会创新、产业变革、业务创新及每个人的角色定位产生近乎决定性的影响。
|
大数据 数据库
阿里大数据——数据库总结及原文链接
阿里大数据——数据库总结及原文链接自制脑图
84 1
阿里大数据——数据库总结及原文链接
|
存储 分布式计算 安全
【读书笔记】大数据原理与应用:分布式文件系统HDFS
【读书笔记】大数据原理与应用:分布式文件系统HDFS
127 0
【读书笔记】大数据原理与应用:分布式文件系统HDFS
|
存储 SQL 分布式计算
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
159 0
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
|
存储 大数据
【读书笔记】《大数据之路》——维度设计总结(3)
【读书笔记】《大数据之路》——维度设计总结(3)
|
存储 大数据 数据库
【读书笔记】《大数据之路》——维度设计总结(2)
【读书笔记】《大数据之路》——维度设计总结(2)
|
存储 大数据 OLAP
【读书笔记】《大数据之路》——维度设计总结(1)
【读书笔记】《大数据之路》——维度设计总结(1)
【读书笔记】《大数据之路》——维度设计总结(1)
|
机器学习/深度学习 存储 人工智能
参营拿好礼! 阿里灵杰“大数据&AI实战派”训练营正式开启
阿里灵杰依托阿里领先的云基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的大数据和AI能力体系。
参营拿好礼! 阿里灵杰“大数据&AI实战派”训练营正式开启

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute