PaaS 及案例分析-阿里云飞天大数据平台|学习笔记

本文涉及的产品
智能商业分析 Quick BI,专业版 50license 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习 PaaS 及案例分析-阿里云飞天大数据平台

开发者学堂课程【高校精品课-河海大学-云计算技术与应用:PaaS 及案例分析-阿里云飞天大数据平台】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/9/detail/15876


PaaS 及案例分析-阿里云飞天大数据平台

 

内容介绍:

一、大数据平台即 MaxCompute

二、MaxCompute 大数据计算服务

 

一、大数据平台即 MaxCompute

前面简单介绍了阿里云的基础设施平台,今天介绍阿里云的大数据平台,阿里云大数据是基于飞天的大数据平台,2019年7月阿里云飞天大数据平台首次亮相阿里云峰会上海站,它是拥有中国唯一自主研发的计算引擎,是全球集群规模最大的计算平台。

最大可以扩展到10万台计算机起,它支持海量数据存储和计算,在民生服务里面飞天大数据平台已经最多保持城市大脑等场景当中协助政府优化服务模式,实现更加智能更加便捷的能力,保障信息安全。所以今天简单介绍飞天大数据平台的一些技术框架以及飞天大数据平台下常用的服务。下面简单介绍大数据平台即 MaxCompute。

1、阿里云飞天大数据平台-发展历史

阿里云大数据平台叫阿里云飞天大数据平台,首先看一下阿里云飞天大数据平台的发展历史,此项目从2009年启动到2019年正式发布经历了10年,飞天大数据平台是中国唯一自主研发的计算引擎,也是规模最大、数据处理能力最强的数据综合治理体系。

image.png

并且在飞天大数据平台当中又将 AI 加持到飞天大数据平台上,所以飞天大数据平台实际上是阿里巴巴10年来在大数据建设领域方面实践的结晶。所以平台已经广泛的应用于城市电脑、数字政府、电力、金融、零售、智能制造、社会农业等各个领域当中。

2、阿里云飞天大数据平台-产品架构

下图为阿里云大数据产品的架构图,可以看到飞天大数据平台当中核心的成分是8大引擎平台加上1个操作系统。

image.png

八大引擎指阿里大数据计算引擎、开源大数据计算引擎、实时大数据计算引擎、图计算引擎、交互式分析引擎、智能推荐引擎、自研分布式搜索引擎、开源搜索引擎,所以是8大引擎加1个飞天的操作系统整个的架构是这样的。大数据计算引擎是飞天操作系统平台的最大的核心。

8种引擎能满足企业大数据离线计算、实时计算、图计算、秒级查询、搜索推荐等各个需求。飞天AI平台的加持使得整个产品架构非常庞大,功能非常强大。可以看到在目前的新零售、金融科技、数字政府、城市大脑、智慧农业、智能制造、电力物联网当中飞天大数据平台都得到了比较好的应用。

3、阿里云飞天大数据平台-平台优势

阿里云飞天大数据平台的平台优势,首先它是应用比较广泛的实践,飞天大数据平台不仅在阿里巴巴集团内部经历每年双十一的世界级的业务场景实践更深入到行业当中,深入参与各个行业、各个领域的大数据建设,形成了非常丰富的最佳实践。第二具备易用齐全的产品体系,从丰富多样的大数据引擎到高效易用的大数据研发平台,飞天大数据平台拥有非常齐全的产品体系,满足各种业务场景下对大数据多方面的需求。

第三拥有极致的性能与成本,飞天大数据平台刷新了多项世界纪录向世界展示中国的能力,被称为新一代的大国重器,同时对存储和计算进行极致的优化,打破性能与成本的线性关系。第四是 AI 加持形成双生系统,大数据与AI是双生系统,AI 加持的飞天大数据平台与大数据加持的飞天 AI 平台共同构建了集数据、算力、算法的 AI 落地的场景闭环,让数据更加智能,让商业更加有价值。

 

二、MaxCompute 大数据计算服务

1、概述

首先介绍概述,MaxCompute 是快速、完全托管的EB级数据仓库解决方案,随着数据收集手段不断丰富,行业数据大量的积累,数据规模已经增长到传统软件行业无法承载的海量数据。比如 TB 和 EB 级的,MaxCompute 能承载EB级的数据仓库,所以 MaxCompute 致力于批量结构化的数据存储和计算,提供海量数据仓库的解决方案及分析建模的服务。

MaxCompute 适用于100GB以上的存储及计算的需求,最大可以达到EB级。第二个特点多种计算模型MaxCompute 支持 cure、makereduce、UDF、graff,基于 DAG 的处理交互式、内存计算、支持学习等计算类型以及MPI叠盖类算法,简化了企业大数据平台的应用架构。第三点强数据安全,MaxCompute 已经稳定支持阿里全部的数据仓库业务9年以上,提供多层沙箱防护进行权限管理及监控。MaxCompute 通过了独立的第三方审计师针对阿里云对 AICUA 可信服务标准当中关于安全性、可用性、机密性原则,符合性的描述和审制。

第四点低成本与企业自建专有名相比,MaxCompute 更加高效,可以降低30%到50%的采购成本。第五点免运维MaxCompute的server无服务器的设计思路,用户只需关心作业和数据,无需关心底层分布式的架构和运维。最后一点是极致的弹性扩展,MaxCompute 提供按量付费模式下作业级别的资源管理,用户无需受困于资源扩展的难题,系统会自动的扩展计算存储网络的资源,最大程度的节约成本。

2、MaxCompute 大数据计算服务-官方视频

下面看一下 MaxCompute 官方提供的视频。

视频内容如下:MaxCompute 是阿里云提供的安全可靠、高效能、低成本的大数据计算服务,可从GB到EB级别按需弹性伸缩,并向用户提供丰富的大数据开发工具,完善的数据导入导出方案以及多种分布式计算模型。MaxCompute能快速解决用户海量数据计算问题,有效降低企业大数据计算平台总体拥有成本,提升大数据应用开发效率,保障数据的云上安全。下面通过三个典型常性,帮助了解 MaxCompute 产品使用及架构。日志分析阿里云计算服务 MaxCompute 可用来处理WEB和移动应用程序的各种日志,帮助用户将TB级的非结构化、半结构化以及结构化数据加工处理为业务应用所需的洞察数据,通过日志分析运营团队可以精准获悉网站流量及来源,最受欢迎页面和最有价值信息等数据。MaxCompute 更高效的赋能企业,个性化运营策略推荐使用产品日志服务 Log+MaxCompute/DataWorks+Quick BI,当然可以采取社区已有的日志采集工具

Fluented/Flume/Logstash+DataHub+MaxCompute/DataWorks+Quick BI的组合来完成日志分析。用户画像,全球76亿人中约三分之二已经拥有手机且超半数为智能型设备,在人们可以随时随地可以获取丰富的互联网体验的同时,互联网厂商包括电商、视频APP等如何基于海量的网络行为数据,服务内行为数据,用户偏好数据,交易数据提升平台用户的活跃度增加黏性,基于阿里云大数据计算服务 MaxCompute 可以帮助轻松构建平台用户画像实现精准营销及个性化推荐等服务,代表客户包括小红唇、亲宝宝、美甲帮等。

推荐使用产品组合

MaxCompute/DataWorks+MaxCompute+PAL+Quick BI。数据运营,在针对百万用户的精细化运营中以往数据运算基于 MySQ L或 RDS 的数据存储,一个维度的数据处理大概需要两到三天,通过阿里云 DTS 数据集成服务将数据同步到 MaxCompute 进行测算可使时间缩短到3-6小时,进而可通过 Quick BI 对用户的分类、分级、偏好、业务经营状况等进行分析,极大提升业务数据分析能力并有效监控,更好的赋能业务。数据是企业最宝贵的资产,拥有充沛的计算能力才能全面释放数据的价值。因为 MaxCompute 众安保险实现精准的用户画像分析,为受益用户提供符合需求的数十亿保单服务,你的业务数据还在沉睡吗,赶快来 MaxCompute 官网了解更多信息,开通服务,创建 project。即刻开启大数据探索之旅。了解更多产品和技术信息。

3、MaxCompute 大数据计算服务-使用入门

接下来简单了解 MaxCompute 大数据计算服务的使用入门,下面是阿里云官网提供的安装和配置客户端的视频,详细的信息到阿里云平台,平台的链接为https://help.aliyun.com/

Windows 客户端配置及常用的命名操作如下:

首先导航到 MaxCompute-准备工作-安装并配置客户端,在安装客户端之前需要了解 MaxCompute 客户端是一个Java 运行程序,需要 JRA 运行环境,客户端从0.28.0版开始支持 JDK1.9,之前的版本只能用 JDK1.8,点击下载。

详细的视频不再多放,可以到阿里云的帮助平台下载视频学习如何使用 MaxCompute 来进行大数据的运算。

本讲主要介绍了阿里云飞天大数据平台以及它提供的

MaxCompute 服务,这个服务对后面的大数据分析和展示非常有帮助,后面会介绍 Quick BI,Quick BI 是基于 MaxCompute 大数据计算得到的一个数据进行数据可视化.

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
29 1
|
12天前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
12 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
5天前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
20 1
|
8天前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
12 1
|
9天前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
11 1
|
13天前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
28 3
|
12天前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
19 1
|
13天前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
37 1
|
11天前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
|
12天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势