开发者学堂课程【高校精品课-河海大学-云计算技术与应用:PaaS 及案例分析-阿里云飞天大数据平台】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/9/detail/15876
PaaS 及案例分析-阿里云飞天大数据平台
内容介绍:
一、大数据平台即 MaxCompute
二、MaxCompute 大数据计算服务
一、大数据平台即 MaxCompute
前面简单介绍了阿里云的基础设施平台,今天介绍阿里云的大数据平台,阿里云大数据是基于飞天的大数据平台,2019年7月阿里云飞天大数据平台首次亮相阿里云峰会上海站,它是拥有中国唯一自主研发的计算引擎,是全球集群规模最大的计算平台。
最大可以扩展到10万台计算机起,它支持海量数据存储和计算,在民生服务里面飞天大数据平台已经最多保持城市大脑等场景当中协助政府优化服务模式,实现更加智能更加便捷的能力,保障信息安全。所以今天简单介绍飞天大数据平台的一些技术框架以及飞天大数据平台下常用的服务。下面简单介绍大数据平台即 MaxCompute。
1、阿里云飞天大数据平台-发展历史
阿里云大数据平台叫阿里云飞天大数据平台,首先看一下阿里云飞天大数据平台的发展历史,此项目从2009年启动到2019年正式发布经历了10年,飞天大数据平台是中国唯一自主研发的计算引擎,也是规模最大、数据处理能力最强的数据综合治理体系。
并且在飞天大数据平台当中又将 AI 加持到飞天大数据平台上,所以飞天大数据平台实际上是阿里巴巴10年来在大数据建设领域方面实践的结晶。所以平台已经广泛的应用于城市电脑、数字政府、电力、金融、零售、智能制造、社会农业等各个领域当中。
2、阿里云飞天大数据平台-产品架构
下图为阿里云大数据产品的架构图,可以看到飞天大数据平台当中核心的成分是8大引擎平台加上1个操作系统。
八大引擎指阿里大数据计算引擎、开源大数据计算引擎、实时大数据计算引擎、图计算引擎、交互式分析引擎、智能推荐引擎、自研分布式搜索引擎、开源搜索引擎,所以是8大引擎加1个飞天的操作系统整个的架构是这样的。大数据计算引擎是飞天操作系统平台的最大的核心。
8种引擎能满足企业大数据离线计算、实时计算、图计算、秒级查询、搜索推荐等各个需求。飞天AI平台的加持使得整个产品架构非常庞大,功能非常强大。可以看到在目前的新零售、金融科技、数字政府、城市大脑、智慧农业、智能制造、电力物联网当中飞天大数据平台都得到了比较好的应用。
3、阿里云飞天大数据平台-平台优势
阿里云飞天大数据平台的平台优势,首先它是应用比较广泛的实践,飞天大数据平台不仅在阿里巴巴集团内部经历每年双十一的世界级的业务场景实践更深入到行业当中,深入参与各个行业、各个领域的大数据建设,形成了非常丰富的最佳实践。第二具备易用齐全的产品体系,从丰富多样的大数据引擎到高效易用的大数据研发平台,飞天大数据平台拥有非常齐全的产品体系,满足各种业务场景下对大数据多方面的需求。
第三拥有极致的性能与成本,飞天大数据平台刷新了多项世界纪录向世界展示中国的能力,被称为新一代的大国重器,同时对存储和计算进行极致的优化,打破性能与成本的线性关系。第四是 AI 加持形成双生系统,大数据与AI是双生系统,AI 加持的飞天大数据平台与大数据加持的飞天 AI 平台共同构建了集数据、算力、算法的 AI 落地的场景闭环,让数据更加智能,让商业更加有价值。
二、MaxCompute 大数据计算服务
1、概述
首先介绍概述,MaxCompute 是快速、完全托管的EB级数据仓库解决方案,随着数据收集手段不断丰富,行业数据大量的积累,数据规模已经增长到传统软件行业无法承载的海量数据。比如 TB 和 EB 级的,MaxCompute 能承载EB级的数据仓库,所以 MaxCompute 致力于批量结构化的数据存储和计算,提供海量数据仓库的解决方案及分析建模的服务。
MaxCompute 适用于100GB以上的存储及计算的需求,最大可以达到EB级。第二个特点多种计算模型MaxCompute 支持 cure、makereduce、UDF、graff,基于 DAG 的处理交互式、内存计算、支持学习等计算类型以及MPI叠盖类算法,简化了企业大数据平台的应用架构。第三点强数据安全,MaxCompute 已经稳定支持阿里全部的数据仓库业务9年以上,提供多层沙箱防护进行权限管理及监控。MaxCompute 通过了独立的第三方审计师针对阿里云对 AICUA 可信服务标准当中关于安全性、可用性、机密性原则,符合性的描述和审制。
第四点低成本与企业自建专有名相比,MaxCompute 更加高效,可以降低30%到50%的采购成本。第五点免运维MaxCompute的server无服务器的设计思路,用户只需关心作业和数据,无需关心底层分布式的架构和运维。最后一点是极致的弹性扩展,MaxCompute 提供按量付费模式下作业级别的资源管理,用户无需受困于资源扩展的难题,系统会自动的扩展计算存储网络的资源,最大程度的节约成本。
2、MaxCompute 大数据计算服务-官方视频
下面看一下 MaxCompute 官方提供的视频。
视频内容如下:MaxCompute 是阿里云提供的安全可靠、高效能、低成本的大数据计算服务,可从GB到EB级别按需弹性伸缩,并向用户提供丰富的大数据开发工具,完善的数据导入导出方案以及多种分布式计算模型。MaxCompute能快速解决用户海量数据计算问题,有效降低企业大数据计算平台总体拥有成本,提升大数据应用开发效率,保障数据的云上安全。下面通过三个典型常性,帮助了解 MaxCompute 产品使用及架构。日志分析阿里云计算服务 MaxCompute 可用来处理WEB和移动应用程序的各种日志,帮助用户将TB级的非结构化、半结构化以及结构化数据加工处理为业务应用所需的洞察数据,通过日志分析运营团队可以精准获悉网站流量及来源,最受欢迎页面和最有价值信息等数据。MaxCompute 更高效的赋能企业,个性化运营策略推荐使用产品日志服务 Log+MaxCompute/DataWorks+Quick BI,当然可以采取社区已有的日志采集工具
Fluented/Flume/Logstash+DataHub+MaxCompute/DataWorks+Quick BI的组合来完成日志分析。用户画像,全球76亿人中约三分之二已经拥有手机且超半数为智能型设备,在人们可以随时随地可以获取丰富的互联网体验的同时,互联网厂商包括电商、视频APP等如何基于海量的网络行为数据,服务内行为数据,用户偏好数据,交易数据提升平台用户的活跃度增加黏性,基于阿里云大数据计算服务 MaxCompute 可以帮助轻松构建平台用户画像实现精准营销及个性化推荐等服务,代表客户包括小红唇、亲宝宝、美甲帮等。
推荐使用产品组合
MaxCompute/DataWorks+MaxCompute+PAL+Quick BI。数据运营,在针对百万用户的精细化运营中以往数据运算基于 MySQ L或 RDS 的数据存储,一个维度的数据处理大概需要两到三天,通过阿里云 DTS 数据集成服务将数据同步到 MaxCompute 进行测算可使时间缩短到3-6小时,进而可通过 Quick BI 对用户的分类、分级、偏好、业务经营状况等进行分析,极大提升业务数据分析能力并有效监控,更好的赋能业务。数据是企业最宝贵的资产,拥有充沛的计算能力才能全面释放数据的价值。因为 MaxCompute 众安保险实现精准的用户画像分析,为受益用户提供符合需求的数十亿保单服务,你的业务数据还在沉睡吗,赶快来 MaxCompute 官网了解更多信息,开通服务,创建 project。即刻开启大数据探索之旅。了解更多产品和技术信息。
3、MaxCompute 大数据计算服务-使用入门
接下来简单了解 MaxCompute 大数据计算服务的使用入门,下面是阿里云官网提供的安装和配置客户端的视频,详细的信息到阿里云平台,平台的链接为https://help.aliyun.com/。
Windows 客户端配置及常用的命名操作如下:
首先导航到 MaxCompute-准备工作-安装并配置客户端,在安装客户端之前需要了解 MaxCompute 客户端是一个Java 运行程序,需要 JRA 运行环境,客户端从0.28.0版开始支持 JDK1.9,之前的版本只能用 JDK1.8,点击下载。
详细的视频不再多放,可以到阿里云的帮助平台下载视频学习如何使用 MaxCompute 来进行大数据的运算。
本讲主要介绍了阿里云飞天大数据平台以及它提供的
MaxCompute 服务,这个服务对后面的大数据分析和展示非常有帮助,后面会介绍 Quick BI,Quick BI 是基于 MaxCompute 大数据计算得到的一个数据进行数据可视化.