阿里云
为了无法计算的价值
打开APP
阿里云APP内打开
学习中心> 阿里云大数据计算服务MaxCompute 使用教程> 正文

阿里云大数据计算服务MaxCompute 使用教程

10课时 |
512人已学 |
免费
课程介绍
云原生大数据计算服务 MaxCompute是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。
 
本课程带你了解
  1. MaxCompute产品介绍
  2. 安装MaxCompute客户端odpscmd
  3. MaxCompute客户端odpscmd使用说明
  4. MaxCompute Studio安装配置说明
  5. MaxCompute SQL基本操作介绍
  6. MaxCompute SQL与Hive对比分析
  7. 基于MaxCompute的大数据BI分析最佳实践
  8. MySQL/RDS数据如何同步到MaxCompute
  9. Hadoop数据迁移至MaxCompute
  10. Hive数据如何同步至MaxCompute
  11. Kafka 数据如何同步到 MaxCompute

MaxCompute产品介绍

目录:

一、企业数字化转型面临的挑战

二、MaxCompute:SaaS模式企业级云数据仓库

三、MaxCompute产品技术特性

四、MaxCompute的产品价值

五、Serverless架构的数据仓库

六、MaxCompute是天然的多租户系统

八、构建数据应用

九、基于MaxCompute的解决方案及案例介绍

十、总结

 

一、企业数字化转型面临的挑战

企业为了使用数据驱动业务发展,在建设和运营企业数据仓库时面临的问题:

”数据孤岛”尚未打通

  • 部门间业务间数据孤岛,数据共享成本高,缺乏企业级统一的数据获取出口
  • 难于自助分析,数据消费方获取数据困难,严重依赖IT部门支持来满足企业更广泛的数据需求

面向业务变化的敏捷创新能力

  • 面向数据智能的研发能力,面向用户体验的场景创新能力,都对IT系统提出更高要求
  • 开发效率成为敏捷创新的阻碍因素

平台架构复杂、运营成本高

  • IDC管理和运维成本过高
  • IT人才成本高,纯自运营难
  • 资源利用率不高,存在较多浪费

平台安全问题有待解决

  • 系统安全
  • 数据安全
  • 合规

 

二、MaxCompute:SaaS模式企业级云数据仓库

应用场景

广告场景-用户标签计算、分析

业务运营场景-业务指标计算、查询

各行业搭建数据仓库

云上弹性扩展大数据计算和存储

产品优势

云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,

快速实现大规模弹性负载需求

简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成

安全:多租户环境下安全控制能力强

大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证

推荐组合

BI分析场景

-MaxCompute+Hologres+Flink+DataWorks+Quick BI

机器学习场景-MaxCompute+PAI+DataWork

 

三、MaxCompute产品技术特性

全托管的Serverless的在线服务

  • 对外以API方式访问的在线服务,开箱即用
  • 预铺设的大规模集群资源,近乎无限资源,按需使用和付费
  • 无需平台运维,最小化运维投入

弹性能力与扩展性

  • 存储和计算独立扩展,支持TB->EB数据规模的扩展能力,可以让企业将全部数据资产保存在一个平台上进行联动分析,消除数据孤岛
  • Servlerss资源,实时根据业务峰谷变化带来的需求变化分配资源,自动扩展单作业可根据需要秒级获得成千上万Core

数据湖探索分析

  • 默认集成对数据湖(如OSS服务)的访问分析,处理非结构化或开放格式数据
  • 支持外表映射、Spark直接访问方式开展数据湖分析
  • 对用户友好:在同一套数据仓库服务下和用户接口下,实现数据湖分析和数据仓库的关联分析

集成AI能力

  • 与PAI无缝集成,提供强大的机器学习处理能力
  • 可使用用户熟悉的Spark-ML开展智能分析
  • 使用Python机器学习三方库

支持流式采集和近实时分析

  • 支持流式数据的实时写入(Tunnel)并在数据仓库中开展分析
  • 与云上主要流式服务深度集成,轻松接入各种来源流式数据

高性能秒级弹性并发查询,满足近实时分析场景

深度集成Spark引擎

  • 内建Apache Spark引擎,提供完整的Spark功能
  • 与MaxCompute计算资源、数据和权限体系深度集成

统一而丰富的运算能力

离线计算(MR,DAG,SQL,ML, Graph)

  • 实时计算(流式,内存计算,迭代计算)
  • 涵盖,通用关系型大数据,机器学习,非结构化数据处理,图计算

提供统一的企业数据视图

提供租户级别的统一元数据,让企业能够轻松获得完整的企业数据目录对于更广泛的数据源,通过外表建立数据仓库与外部数据源的连接,Connect not Collect

企业级服务

  • SLA保证:99.9%服务可用性保障
  • 自助运维与自动化运维
  • 完善的故障容错(软件,硬件,网络,人为)

 

四、MaxCompute的产品价值

1.Serverless云原生服务, 解决传统自建数据平台的痛点问题

2.多租户体系下安全、可靠的平台底座.企业数据仓库/中台理想技术

平台。

3.统一分析平台,一套服务+多种功能,简化企业数据平台架构.加速

获取深入的业务洞察。

4.高性能、低成本,带来了财务支出的灵活性和业务敏捷性,降低TCO。

5.提供完整生态和最佳实践.可快速构建完整的云上大数据解决方案。

可持续治理。

 

五、Serverless架构的数据仓库

Serverless架构的数据仓库是业界发展趋势,是解决扩展性和弹性的最佳方案。

MaxCompute是Serverless的云原生数据仓库服务,能够极大降低创新门槛、加速价值实现

扩展性&弹性

  • 大规模计算资源预先部署的“在线服务”,用户无需资源开通、无需扩容缩容

弹性:作业级别自动伸缩:根据每个作业的不同,秒级自动分配资源大小

超级算力:MaxCompute根据作业需要可分配超级弹性,MaxCompute根据作业需要可在秒级为单作业分配数千Core并行处理,算力强大

低使用成本

存储与计算独立伸缩,独立计费,无需为存储扩容资源真正的”按使用付费”,按量付费模式仅在运行作业时收费,不为空闲IDLE资源付费;

0 配套的费用预警等费用控制手段;

免运维

. 无需运维团队对基础设计、软件平台运维,MaxCompute

提供服务级别SLA保障

  • 无需提前容量规划,根据实际的业务规模自动适配资源

和花费:

无需进行索引、分布键设置、 vacuuming等调优工作No indexes,distribution keys,vacuuming

后台智能化优化,如小文件自动合并

Serverless意味着更敏捷的业务响应和快速试错、创新- 从开通到第一个查询

Serverless意味着简单、强大计算能力,无需容量规划、匹配业务快速变化的需求

Serverless意味着更灵活的资源解决方案,兼顾成本与性能的需要.

 

六、MaxCompute是天然的多租户系统

MaxCompute是天然的多租户系统-统一元数据和数据存储,通过权限实现跨业务/组织的数据隔离与共享,是消除数据孤岛、提高数据共享效率的重要技术数段。

  1. 完整的多租户系统,实现数据、计算资源、计算任务(沙箱)的安全隔离

2.组织内部通过Project进行数据和计算的隔离

(workload isolation),消除业务间的资源争抢

3.提供统一的元数据,企业内各部门/业务的完整数据视图一览无余,提供完整的企业数据资产视图

4.支持跨项目间的数据访问授权,高效、低成本地在企业内共享数据,实现每个个人对企业各项数据资源的受控使用

5.业界最完整的安全管理体系,支持跨项目数据安全管理、细粒度的访问控制、数据加密、隐私数据保护、操作使用行为审计能力。

多租户体系下企业级可信赖的数据管理平台-MaxCompute拥有最全面的安全管理机制,提供业界领先的安全能力。

 

七、MaxCompute是面向分析的统一数据平台

MaxCompute是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构 加速获

取深入的业务洞察

现代化的数据平台(Moden data platform)要求企业能够对业务做更实时的响应、处理不断增加的不同类型数据、利用新技术挖掘数据更深入的价值

统一分析平台-MaxCompute深度集成Spark:”一套数据支持多种引擎”,在全托管的统一数据平台上使用主流&熟悉的计算引擎,满足更丰富计算场景的需要

MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,完全兼容Spark的API、应用及生态工具。MaxCompute项目用户,可在统一的数据存储、权限管控体系内,利用Spark进行应用开发。

  • 以数据为中心:无需从数据仓库中移动数据到Spark集群
  • 统一解决方案:统一的权限体系
  • 挖掘数据价值:复杂ETL、机器学习、外部数据源分析
  • 开放兼容:支持原生Spark应用,存量Spark应用无缝迁移

统一分析平台:现代化的数据仓库+数据湖解决方案,通过一致的数据管理体系整合和联动跨源的多种结构数据

连接企业多种外部数据源,通过统一、一致的数据管理体系(MaxCompute统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。

统一分析平台-AI集成的一体化数据平台

挑战:

1.真实的人工智能场景依赖大数据平台提供数据供给,进行数据

预处理。如何在企业统一的数据资产及安全体系之上,同时开展B1分析和A1分析充分挖掘数据价值,不因计算而移动数据,避免数据孤岛和资源浪费

2.如何屏蔽异构的计算资源(CPU/GPU)的复杂性,对外提供简单

易用的界面

应对:大数据与人工智能融合的分析平台(MaxCompute+PAI)

  1. MaxCompute资源管理统一对异构资源(支持CPU、GPU计算资源)进行管理,屏蔽异构的计算资源(CPU/GPU)的复杂性;
  2. MaxComptue提供统一数据存储、统一权限体系下、统一计算引擎,支持对数据开展包括离线处理、交互式分析、机器学习/深度学习在内的分析;
  3. 机器学习平台PAI(Platform of Artificial Intelligence)

为传统机器学习和深度学习提供了从数据处理、模型训练、服冬部要到预测的一站式服冬 极大降低了AI创新的成木和门槛.

 

八、构建数据应用

完整的阿里云大数据产品解决方案,快速构建数据应用 方案说明:适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景。

方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;

涉及产品:

日志服务SLS、数据传输DTS、DataHub、实时计算Flink、交互式分析、云数仓MaxCompute、数据治理DataWorks、Quick BI报表、DataV大屏、ES搜索、机器学习PAI

企业级可治理的数据管理平台

方案说明:适用于互联网、金融、政府、传统企业等行业头部、拥有海量数据资产的客户

方案优势:阿里巴巴大数据治理最佳实践,提供数据发现机制,支持统一元数据采集与数据资产目录构建支持数据探查与数据分析、联邦查询以及资源优化服务,让企业更方便地探查数据价值,更有效的统一元数据管理,更安全的生产数据,更智能的优化大数据成本

存储/计算资源优化、诊断与分析

多领域优化建议

数据存储领域

数据计算领域

数据采集领域

围绕引擎采集第一手数据

生命周期/空表/长时间未访问冲突任务/数据倾斜/暴力扫描空表导入/持续一致导入/同源导入/网络优化

多视角优化视图

个人视角

管理员全局视角

 

九、基于MaxCompute的解决方案及案例介绍

MaxCompute能够解决自建数据平台的痛点问题

自建数据平台面临的挑战

建设成本高:

初始投资高-购买软硬件、构建专业团队

周期较长&风险高-从建设到投入使用的周期较长,以月为单位,业务风险扩展性与弹性(匹配业务需求的能力)不足:

滞后业务需求·

依赖容量规划、采购周期等条件,平台能力扩展往往滞后于业务实际发展的需要

规模容量限制-容易受到机房容量限制,扩容困难

受限的弹性能力一固定规模的资源池,难以满足突发业务需要的临时弹性需

资源利用率低:

集群资源利用率低-业务天然地存在不同类型的峰谷变化,导致集群按峰值

扩容,显示资源使用率低

为存储扩容计算-由于存储与计算需求的不一致,往往需要为存储空间扩容集群,导致浪费

运维维护成本高:

保障服务SLA的成本高-需要投入专家团队进行集群版本升级、根据管理需要进行二次开发和功能增强,运维管理的人力投入较高;

人员流失变化对系统影响大白建数据平台的长期发展、演进,对企业的核心技术人才依赖高;

MaxCompute云上服务极大降低了使用门槛

近乎无限扩展

敏捷-加速应用交付

精确匹配需求的极致

内建的企业级服务

开箱即用,内置完整功能和生态配套

支持按作业付费(Pay as you use),支持以极低的费用进行业务概念验证后投入生产

超大资源池,支持TB到EB规模数据仓库的扩展

无需容量规划,自适应处理不同业务规模,规模增长、性能不降级

计算和存储独立伸缩

全托管、免运维-最小化在平台运维方面投入,团队可聚焦于数据应用开发和数据管理

面向业务的敏捷平台:可低成本、快速完成数据应用/数据产品的原型验证。业务规模增加后,系统自适应扩展,应用无需改动、调优

按需伸缩:根据每个作业的需求实时、精准分配资源,单作业最大可分配成上万Core计算资源,保障算力应对高并发:自动应对业务峰谷变化的资源需求

服务级别的高可用设计,面向使用者承诺99.9% SLA内建数据加密、脱敏、持续备份、审计日志功能支持跨地域容灾.

 

十、总结

MaxCompute-被广泛使用的可信赖的企业数据平台

MaxCompute-符合现代企业数字化需求的领先数据平台MaxCompute-基于云的低成本、高效能的敏捷数据平台MaxCompute -赋能数据驱动的组织变革,数据仓库/数据中台的理想技术底座

 

 

我的学习进度
请登录后查看您的学习进度!
立即登录
本课程相关云产品