《阿里大数据之路》读书笔记:总述

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

第一章 总述

阿里巴巴大数据系统体系架构图

阿里数据体系主要分为数据采集数据计算数据服务数据应用四大层次。

image.png

一、数据采集层

阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。

数据来源主要有两部分:

  • 业务数据:主要存在数据库中
  • 日志数据:主要来自于日志文件

日志采集技术:

  • Aplus.JS:Web端日志采集技术方案
  • UserTrack:APP 端日志采集技术方案

消息中间件(离线/实时):

  • TimeTunnel (TT ):既包括数据库的增量数据传输,也包括日志数据的传输

数据库同步工具(离线):直连异构数据库(备库)来抽取各种时间窗口的数据。

  • DataX/同步中心:同步中心是基于DataX易用性封装的

二、数据计算层

数据被整合和计算后,才能被挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。

两大体系:

  • 数据存储及计算云平台(离线计算平台(MaxCompute)、实时计算平台(Strea Compute))
  • 数据整合及管理体系:阿里内部称之为“OneData ”,数据整合及管理的方法体系和工具

数据仓库:

  • 离线数仓:传统数仓。主要以天(包含小时、周和月)为单位,如T-1,则每天凌晨处理上一天的数据。
  • 实时数仓:流式数据

数仓的建设遵循业界的分层理念,传统的数据加工链路包括以下几层:

  • 数据层:Operational Data Store,ODS
  • 明细数据层:Data Warehouse Detail,DWD
  • 汇总数据层:Data Warehouse Summary,DWS
  • 应用数据层:Application Data Store,ADS

数仓不同层次之间的加工实现了数据资产向信息资产的转化,整个过程还进行了有效的元数据管理数据质量处理

元数据模型整合及应用:主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工具类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据管理等 ,如用于存储、计算和成本管理等。

三、数据服务层

目的:数据被整合和计算好之后,可以提供给产品和应用进行消费。

数据服务层以数据仓库整合计算好的数据作为数据源,可以架构在多种数据库之上,如MySQL和HBase等。

数据服务层主要通过统一的数据服务平台对外提供数据服务通过接口服务化方式对外提供数据服务。通过接口堆外提供的数据服务主要包括:

  • 简单数据查询服务
  • 复杂数据查询服务
  • 实时数据推送服务

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给各应用使用。

四、数据应用层

数据准备好了,可以提供给其他部门使用,比如索、推荐、广告等应用。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
522 2
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
264 2
|
弹性计算 分布式计算 大数据
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
182 2
|
存储 分布式计算 专有云
MaxCompute产品使用问题之阿里公有云的数据如何迁移到阿里专有云
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
149 10
|
存储 移动开发 算法
《阿里大数据之路》读书笔记:第二章 日志采集
《阿里大数据之路》读书笔记:第二章 日志采集
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
269 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
401 2
阿里十年大数据专家谈“云上数据中台之道”含内部PPT
从大数据的概念被正式提出,到马云老师预言人类正从IT时代走向DT时代,大数据浪潮迭起。大数据同仁共同认知的一点是,大数据会对社会创新、产业变革、业务创新及每个人的角色定位产生近乎决定性的影响。
|
1月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
70 0

相关产品

  • 云原生大数据计算服务 MaxCompute