“阿里巴巴大数据系统体系”学习笔记-纲领篇

简介: ‘你是做什么的?’ ‘数据产品经理’看到对方一脸懵逼之后,再补充一句‘大数据相关的工作’ ‘哦~,高大上,不懂’ 过去5年,‘大数据’是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。
+关注继续查看

你是做什么的?

数据产品经理”看到对方一脸懵逼之后,再补充一句大数据相关的工作

哦~,高大上,不懂


过去5年,“大数据”是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。这种资源其实很早之前就被发现、被应用。只不过因为互联网的发展,数据这种资源呈现出了“爆炸式”的增长,而人们也发现了它巨大的潜在价值;预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB)。

 

所以面对如此“量大”、“价值大”的资源,我们需要建立一套从数据采集、计算到服务到应用的“大数据体系”,就跟“石油体系’一样有勘探、采集、传输、加工、应用等;由此也萌生出一批“大数据体系”相关的工种。

 

阿里巴巴作为距离大数据最近的公司之一,既有丰富的数据资源也有丰富的应用场景,从它建构的大数据体系了解“大数据”这条生态链的全貌,我认为是比较科学的。

 

阿里巴巴大数据系统体系”设计原则:满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能。

 

阿里巴巴大数据系统体系”主要分为数据采集、数据计算、数据服务和数据应用四大层次;

  1. 数据采集

    Web端日志采集技术方案:Aplus.JS

    APP端日志采集技术方案:UserTrack

    生产业务—>大数据系统传输:

    TimeTunnel(TT),既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算;

    数据同步工具(DataX和同步中心)直连异构数据库来抽取各种时间窗口的数据;

  2. 数据计算

    MaxCompute-离线计算平台:阿里自研的离线大数据平台,拥有强大的存储和计算能力;

    StreamCompute-实时计算平台:阿里自研的流式大数据平台,支持流式计算需求;

    OneData-数据整合及管理体系:数据整合及管理的方法体系和工具,大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性。

  3. 数据服务

    OneService-统一的数据服务平台:以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务和实时数据推送服务三大特色数据服务

  4. 数据应用

    数据作为新能源,需要通过合适的应用提供给用户,让数据最大化地发挥价值。应用表现可以在搜索、推荐、广告、金融、物流等各个方面。

f183c15f90e53f86346258be025f4c0f1710124b
转载:数据产品笔记本
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 消息中间件 分布式计算
【大数据】大数据技术栈
【大数据】大数据技术栈
60 0
|
6月前
|
大数据
阿里云产品体系分为6大分类——大数据——大数据的5种模块——大数据应用
阿里云产品体系分为6大分类——大数据——大数据的5种模块——大数据应用自制脑图
69 1
|
存储 SQL 大数据
大数据治理——搭建大数据探索平台
在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着业务的增加,分析人员的增加,数据探索服务的价值就会越来越大。 一个成功的数据管理平台,不仅仅要提供各种数据分析的工具,提供各种各样的数据源,更要提供数据探索的能力。
166 0
大数据治理——搭建大数据探索平台
|
机器学习/深度学习 分布式计算 负载均衡
大数据SaaS应用落地经验分享
在过去几年中,我们自己开发的大数据SaaS应用大数据实验室采用混合云体系结构在全国各地进行了几十次部署。在实际使用过程中,遇上了非常多的问题。本文主要分享在实际软件开发和维护过程中遇上的各种问题和解决方案分享。
578 0
大数据SaaS应用落地经验分享
|
存储 分布式计算 搜索推荐
连载6:阿里巴巴大数据实践:大数据建设方法论OneData
避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。
6807 1
连载6:阿里巴巴大数据实践:大数据建设方法论OneData
|
存储 SQL 消息中间件
连载:阿里巴巴大数据实践—数据服务
服务架构的每次升级,均在性能、稳定性、扩展性等方面有所提升,从而能更好地服务于用户
5445 0
连载:阿里巴巴大数据实践—数据服务
|
存储 数据采集 分布式计算
连载:阿里巴巴大数据实践—实时技术
相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用。
3869 0
连载:阿里巴巴大数据实践—实时技术
|
数据采集 存储 SQL
连载:阿里巴巴大数据实践—数据开发平台
介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。
6957 0
连载:阿里巴巴大数据实践—数据开发平台
|
架构师 大数据 物联网
相关产品
云原生大数据计算服务 MaxCompute
推荐文章
更多