PaaS 及案例分析-阿里云飞天大数据平台|学习笔记

简介: 快速学习 PaaS 及案例分析-阿里云飞天大数据平台

开发者学堂课程【高校精品课-河海大学-云计算技术与应用:PaaS 及案例分析-阿里云飞天大数据平台】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/9/detail/15876


PaaS 及案例分析-阿里云飞天大数据平台

 

内容介绍:

一、大数据平台即 MaxCompute

二、MaxCompute 大数据计算服务

 

一、大数据平台即 MaxCompute

前面简单介绍了阿里云的基础设施平台,今天介绍阿里云的大数据平台,阿里云大数据是基于飞天的大数据平台,2019年7月阿里云飞天大数据平台首次亮相阿里云峰会上海站,它是拥有中国唯一自主研发的计算引擎,是全球集群规模最大的计算平台。

最大可以扩展到10万台计算机起,它支持海量数据存储和计算,在民生服务里面飞天大数据平台已经最多保持城市大脑等场景当中协助政府优化服务模式,实现更加智能更加便捷的能力,保障信息安全。所以今天简单介绍飞天大数据平台的一些技术框架以及飞天大数据平台下常用的服务。下面简单介绍大数据平台即 MaxCompute。

1、阿里云飞天大数据平台-发展历史

阿里云大数据平台叫阿里云飞天大数据平台,首先看一下阿里云飞天大数据平台的发展历史,此项目从2009年启动到2019年正式发布经历了10年,飞天大数据平台是中国唯一自主研发的计算引擎,也是规模最大、数据处理能力最强的数据综合治理体系。

image.png

并且在飞天大数据平台当中又将 AI 加持到飞天大数据平台上,所以飞天大数据平台实际上是阿里巴巴10年来在大数据建设领域方面实践的结晶。所以平台已经广泛的应用于城市电脑、数字政府、电力、金融、零售、智能制造、社会农业等各个领域当中。

2、阿里云飞天大数据平台-产品架构

下图为阿里云大数据产品的架构图,可以看到飞天大数据平台当中核心的成分是8大引擎平台加上1个操作系统。

image.png

八大引擎指阿里大数据计算引擎、开源大数据计算引擎、实时大数据计算引擎、图计算引擎、交互式分析引擎、智能推荐引擎、自研分布式搜索引擎、开源搜索引擎,所以是8大引擎加1个飞天的操作系统整个的架构是这样的。大数据计算引擎是飞天操作系统平台的最大的核心。

8种引擎能满足企业大数据离线计算、实时计算、图计算、秒级查询、搜索推荐等各个需求。飞天AI平台的加持使得整个产品架构非常庞大,功能非常强大。可以看到在目前的新零售、金融科技、数字政府、城市大脑、智慧农业、智能制造、电力物联网当中飞天大数据平台都得到了比较好的应用。

3、阿里云飞天大数据平台-平台优势

阿里云飞天大数据平台的平台优势,首先它是应用比较广泛的实践,飞天大数据平台不仅在阿里巴巴集团内部经历每年双十一的世界级的业务场景实践更深入到行业当中,深入参与各个行业、各个领域的大数据建设,形成了非常丰富的最佳实践。第二具备易用齐全的产品体系,从丰富多样的大数据引擎到高效易用的大数据研发平台,飞天大数据平台拥有非常齐全的产品体系,满足各种业务场景下对大数据多方面的需求。

第三拥有极致的性能与成本,飞天大数据平台刷新了多项世界纪录向世界展示中国的能力,被称为新一代的大国重器,同时对存储和计算进行极致的优化,打破性能与成本的线性关系。第四是 AI 加持形成双生系统,大数据与AI是双生系统,AI 加持的飞天大数据平台与大数据加持的飞天 AI 平台共同构建了集数据、算力、算法的 AI 落地的场景闭环,让数据更加智能,让商业更加有价值。

 

二、MaxCompute 大数据计算服务

1、概述

首先介绍概述,MaxCompute 是快速、完全托管的EB级数据仓库解决方案,随着数据收集手段不断丰富,行业数据大量的积累,数据规模已经增长到传统软件行业无法承载的海量数据。比如 TB 和 EB 级的,MaxCompute 能承载EB级的数据仓库,所以 MaxCompute 致力于批量结构化的数据存储和计算,提供海量数据仓库的解决方案及分析建模的服务。

MaxCompute 适用于100GB以上的存储及计算的需求,最大可以达到EB级。第二个特点多种计算模型MaxCompute 支持 cure、makereduce、UDF、graff,基于 DAG 的处理交互式、内存计算、支持学习等计算类型以及MPI叠盖类算法,简化了企业大数据平台的应用架构。第三点强数据安全,MaxCompute 已经稳定支持阿里全部的数据仓库业务9年以上,提供多层沙箱防护进行权限管理及监控。MaxCompute 通过了独立的第三方审计师针对阿里云对 AICUA 可信服务标准当中关于安全性、可用性、机密性原则,符合性的描述和审制。

第四点低成本与企业自建专有名相比,MaxCompute 更加高效,可以降低30%到50%的采购成本。第五点免运维MaxCompute的server无服务器的设计思路,用户只需关心作业和数据,无需关心底层分布式的架构和运维。最后一点是极致的弹性扩展,MaxCompute 提供按量付费模式下作业级别的资源管理,用户无需受困于资源扩展的难题,系统会自动的扩展计算存储网络的资源,最大程度的节约成本。

2、MaxCompute 大数据计算服务-官方视频

下面看一下 MaxCompute 官方提供的视频。

视频内容如下:MaxCompute 是阿里云提供的安全可靠、高效能、低成本的大数据计算服务,可从GB到EB级别按需弹性伸缩,并向用户提供丰富的大数据开发工具,完善的数据导入导出方案以及多种分布式计算模型。MaxCompute能快速解决用户海量数据计算问题,有效降低企业大数据计算平台总体拥有成本,提升大数据应用开发效率,保障数据的云上安全。下面通过三个典型常性,帮助了解 MaxCompute 产品使用及架构。日志分析阿里云计算服务 MaxCompute 可用来处理WEB和移动应用程序的各种日志,帮助用户将TB级的非结构化、半结构化以及结构化数据加工处理为业务应用所需的洞察数据,通过日志分析运营团队可以精准获悉网站流量及来源,最受欢迎页面和最有价值信息等数据。MaxCompute 更高效的赋能企业,个性化运营策略推荐使用产品日志服务 Log+MaxCompute/DataWorks+Quick BI,当然可以采取社区已有的日志采集工具

Fluented/Flume/Logstash+DataHub+MaxCompute/DataWorks+Quick BI的组合来完成日志分析。用户画像,全球76亿人中约三分之二已经拥有手机且超半数为智能型设备,在人们可以随时随地可以获取丰富的互联网体验的同时,互联网厂商包括电商、视频APP等如何基于海量的网络行为数据,服务内行为数据,用户偏好数据,交易数据提升平台用户的活跃度增加黏性,基于阿里云大数据计算服务 MaxCompute 可以帮助轻松构建平台用户画像实现精准营销及个性化推荐等服务,代表客户包括小红唇、亲宝宝、美甲帮等。

推荐使用产品组合

MaxCompute/DataWorks+MaxCompute+PAL+Quick BI。数据运营,在针对百万用户的精细化运营中以往数据运算基于 MySQ L或 RDS 的数据存储,一个维度的数据处理大概需要两到三天,通过阿里云 DTS 数据集成服务将数据同步到 MaxCompute 进行测算可使时间缩短到3-6小时,进而可通过 Quick BI 对用户的分类、分级、偏好、业务经营状况等进行分析,极大提升业务数据分析能力并有效监控,更好的赋能业务。数据是企业最宝贵的资产,拥有充沛的计算能力才能全面释放数据的价值。因为 MaxCompute 众安保险实现精准的用户画像分析,为受益用户提供符合需求的数十亿保单服务,你的业务数据还在沉睡吗,赶快来 MaxCompute 官网了解更多信息,开通服务,创建 project。即刻开启大数据探索之旅。了解更多产品和技术信息。

3、MaxCompute 大数据计算服务-使用入门

接下来简单了解 MaxCompute 大数据计算服务的使用入门,下面是阿里云官网提供的安装和配置客户端的视频,详细的信息到阿里云平台,平台的链接为https://help.aliyun.com/

Windows 客户端配置及常用的命名操作如下:

首先导航到 MaxCompute-准备工作-安装并配置客户端,在安装客户端之前需要了解 MaxCompute 客户端是一个Java 运行程序,需要 JRA 运行环境,客户端从0.28.0版开始支持 JDK1.9,之前的版本只能用 JDK1.8,点击下载。

详细的视频不再多放,可以到阿里云的帮助平台下载视频学习如何使用 MaxCompute 来进行大数据的运算。

本讲主要介绍了阿里云飞天大数据平台以及它提供的

MaxCompute 服务,这个服务对后面的大数据分析和展示非常有帮助,后面会介绍 Quick BI,Quick BI 是基于 MaxCompute 大数据计算得到的一个数据进行数据可视化.

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
20天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
14天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
37 0
|
27天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
1月前
|
缓存 运维 监控
应用研发平台EMAS 常见问题之用华为的推送界面阿里云收不到如何解决
应用研发平台EMAS(Enterprise Mobile Application Service)是阿里云提供的一个全栈移动应用开发平台,集成了应用开发、测试、部署、监控和运营服务;本合集旨在总结EMAS产品在应用开发和运维过程中的常见问题及解决方案,助力开发者和企业高效解决技术难题,加速移动应用的上线和稳定运行。
382 2
|
1月前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客

热门文章

最新文章