飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 快速学习飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二),介绍了飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【SaaS 模式云数据仓库实战飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/332/detail/3714


4、统一分析平台 MaxCompute 深度集成 Spark:“一套数据支撑多种引擎”,在全托管的统一平台上使用主流&熟悉的计算引擎,满足更丰富的计算场景的需要

MaxCompute Spark 是 MaxCompute 提供的 Apache Spark 计算框架,完全兼容 Spark 的 API、应用及生态工具。MaxCompute项目用户,可在统一的数据存储、权限管控体系内,利用 Spark 进行应用开发。

image.png

·以数据为中心:无需从数据仓库中移动数据到 Spark 集群

·统一解决方案:统一的权限体系

·挖掘数据价值:复杂 ETL、机器学习、外部数据源分析

·开放兼容:支持原生 Spark 应用,存量 Spark 应用无缝迁移

image.png

开发的数据习惯和开发的效率是数据平台开发者非常关心的内容,传统数据仓库中的 SQL 和UDS 组合能够很好的满足绝大部分数据仓库分析的场景,现在更多的开发者使用 Spark 引擎去进行分析,MaxCompute 也是在服务内深度集成的 Spark,Spark 作为MaxCompute 内部的分析引擎之一,内建的 MaxCompute 当中共享同一份数据存储、计算资源、数据安全管理体系,在这个基础之上开发者可以用 Spark 对 MaxCompute 的数据进行分析,可以获得原生的 Spark 体验同时和 dataworks 调度管理做深入的集成。

5、统一分析平台:现代化的数据仓库+数据湖解决方案,通过一致的数据管理体系整合和联动跨源的多种结构数据

连接企业多种外部数据源,通过统一、一致的数据管理体系( MaxCompute 统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。

image.png

收益

·一个产品支持多种计算模式,数据无需移动即可满足多分析场景需求,同时满足数据安全、合规需求

·利用外表方式、Spark应用,直接对数据湖开放格式数据进行处理分析

·无需ETL,跨数据源的联邦计算

·BigData+Al,直接对数据仓库数据进行开展机器学习应用

·全托管的 Serverless 架构,存储/计算分离,超大规模弹性伸缩,按量付费,无需资源开通、无需平台运维、无需性能调优、不需要容量规划

数据仓库是一个传统的数据分析级别管理的方案,现在数据湖尤其在云上对项目存储 OSS 变成了云上的存储和交换中心,企业的很多数据存储都放在 OSS 上,但是高价值的数据会放在数据仓库当中,因为数据仓库会面相分析,会做很多的优化保证它处理的性能和效率。大量的数据通过低频低价格的数据或者非结构化格式的数据,这些数据往往放在 OSS 上,MaxCompute 通过外表方式或者 Spark 直接去处理 OSS 的能力能够和云上的数据湖做很好的打通和集成,通过统一的外表的模式能够做内表和外表联邦的查询,同时MaxCompute 通过 log 的命令能够把 OSS 上的数据快速的分布式的 log 加载到数据仓库中去,进一步加深了数据湖和数据仓库的集成。

6、统一分析平台-AI集成的一体化数据平台

挑战:

(1)真实的人工智能场景依赖大数据平台提供数据供给,进行数据

预处理。如何在企业统一的数据资产及安全体系之上,同时开展 BI分析和 AI 分析充分挖掘数据价值,不因计算而移动数据,避免数据孤岛和资源浪费

(2)如何屏蔽异构的计算资源( CPU/GPU )的复杂性,对外提供简单

易用的界面

应对:大数据与人工智能融合的分析平台( MaxCompute + PAI )

(1)MaxCompute 资源管理统一对异构资源(支持 CPUGPU 计算资源进行管理,屏蔽异构的计算资源( CPU/GPU )的复杂性;

(2)MaxComptue 提供统一数据存储、统一权限体系下、统一计算引擎,支持对数据开展包括离线处理、交互式分析、机器学习/深度学习在内的分析;

(3)机器学习平台 PAI (Platform of Artificial Intelligence)为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务,极大降低了 AI 创新的成本和门槛

现在的数据应用对智能化的要求越来越高,大数据平台常见的应用都会建设数据画像、做个性化的推荐、做人群的圈选、风控方面的应用以及智能客服等等,由于企业的数据是在一个被管控的数据在统一的技术平台之上,最理想的方案是数据不移动把计算和数据结合,在一套平台上去处理大数据做 AI 的分析。MaxCompute 和 PAI 是一体的集成平台,利用 PAI 、Spark、ML 以及 python 生态的学习能力能够很好的处理保存在 MaxCompute 企业数据仓库的数据,进行相关的智能分析。

image.png


七、MaxCompute 的价值

1、高性能/低成本的技术底座

(1)MaxCompute 带来了财务支出的灵活性和业务敏捷性,真实 TCO低至 Hadoop 自建1/3

image.png

数据平台的发展从单级分布式到低成本 Hadoop 平台到云上的存储计算分离架构,都是解决性能、成本、效能的问题,数据规模越来越大时性能和成本影响因素会越来越重,从 Hadoop 自建的对比来看,按量付费的模式财务成本是一个 OpEx 的成本模型,不需要采购机器和大量前期投入成本。MaxCompute 本身是一个免运维的系统,用户在使用时运维、管理、扩容等等方面相关管理成本是非常低的,这两个特点能够极大减少企业平台建设前期投入,把重心放在应用价值的验证上。

第二块 MaxCompute 连续参加了三年的 TBC 组织的 bigbong大数据标准测试集,30TB 和 100TB 都拿到了非常好的成绩,能够比 Hadoop 自建的平台性能快一倍,成本低一半结合,TPC 组织官方性能认可的表现,技术平台侧的投入有大量的人为的管理的投入,结合具体测试数据可以看到基本上 IDC 自建节省很多成本,达到自建1/3 的 TCO 。

(2)不止于离线数仓/ ETL,MaxCompute 面向 BI/Ad-hoc 场景高性能服务 弹性并发

image.png

由于MaxCompute 本身做一些新的技术上的投资,不只是在离线数仓的需要上有很强的算力的能力,支持超大规模的复杂计算,同时面向 BI 和机器人分析也只是一种弹性并发加速的能力。通过近期在线上测试的情况以及部分受邀客户的测试情况,得到比较好的性能表现,MaxCompute的加速能力和自建的 Presto 对比不同的数据集上MaxCompute 都有更好的性能表现,所以有 MaxCompute 的弹性并发加速的能力, MaxCompute 既能满足自建的 Hive、 Spark 、 ETL 数仓的场景,同时也解决  Presto 、Impala 报表、机器查询的分析需求,在同一份数据和资源池的基础上。

2、开放生态的数据平台

MaxCompute 拥有开放生态的服务,支持与众多服务集成,融入企业已有的 IT 环境,最大化降低数据链路集成工作,提升开发效率

一方服务接口

·odpsemd(Command Line Interface)

·MaxCompute Studio(IDE)

·JDBC(SQL92 Dialect)

·SDK(Java/Python/PHP)

·开源 Spark Connector

·开源 Kafka Connector

·MMA 迁移工具

阿里云服务集成

·Dataworks

·PAI

·Quick BI

·Datahub

·DTS

·日志服务

·阿里云 Kafka

·友盟云

三方服务集成

·Tableau

·R

·Python Pandas

·DataX

·Azkakan/Airflow(通过Python SDK)

·其他商业生态工具

一个技术平台要满足大数据应用的场景,离不开周边系统的配套,也离不开企业已有 IT 环境组件的集成,mysql 持续建设一个开放的生态,提供了开放的一方接口通过 AKI、SDK 等方式管理操作,同时能够和开源的服务进行很好地集成 Kafka、Spark 很好的对接,同时提供迁移的工具 MMA 能够从 Hadoop 上更低成本迁移到 mysql 上来。

作为托管型产品最大的优势是能够最巧最大化降低大数据分析链路上集成工作,跟阿里云上很多的服务去做深度的产品集成使用体验过会发现 MaxCompute 开通之后跟 Dataworks 是一个集成,跟 PAI 是一体化的平台,同时能被 getway、Quick BI 做快速的集成,跟主流的消息空间链做无缝的集成投递,不需要过多的开发,只需要配置可以把数据源很快的把不同的数据源集成过来。

同时支持很多第三方的服务集成,比如 Tableau 市面上最被广泛使用的工具和官方集成的能力,mysql 也通过 Python SDK 方式像Azkakan /Airflow 开源的工具能够做很好的集成。

3、完整的阿里云大数据产品解决方案,快速构建数据应用

方案说明:适用干电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜素等场景。

方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益:

涉及产品:

日志服务 SLS、数据传输 DTS、DataHub、实时计算 Flink、交互式分析、云数仓 MaxCompute 数据治理 DataWorks、Ouick BI 报表

DataV 大屏、ES 搜索、机器学习 PAI

image.png

从生态的角度来讲,阿里云的飞天大数据提供了一套完整的大数据解决方案,从数据的采集以及数据实施离线一体化的计算到数据应用的展示有一套完整的大数据解决方案,以 MaxCompute 作为数据仓库的底座能够快速的和阿里云多个产品集成,满足各种智能应用化的需求。

4、企业级可治理的数据管理平台

方案说明:适用于互联网、金融、政府、传统企业等行业头部、拥有海量数据资产的客户

方案优势:阿里巴巴大数据治理最佳实践,提供数据发现机制,支持统一元数据采集与数据资产目录构建支持数据探查与数据分析、联邦查询以及资源优化服务,让企业更方便地探查数据价值,更有效的统一元数据管理,更安全的生产数据,更智能的优化大数据成本

image.png

很多时候企业在使用到一定的阶段,特别是资深用户在固定数据平台的时候都会遇到治理的问题,跟数据本身的特点有关,数据本身的发展和业务增长不是线性的关系,业务是平缓的增长,数据是指数级的增长,存在的问题是构建的平台业务价值一旦打通构建之后发现数据成本越来越高,成本的增长会超过业务的增速,企业需要治理的手段,mysql 和 dataworks 在阿里内部天然的集成有很多数据治理的居家实践,包括数据资产目录、数据安全、数据质量、智能监控(动态机械管理能力)、资源优化的能力,很多居家实践做了产品化的输出

5、企业级可治理的数据管理平台-计算/存储资源智能优化

存储/计算资源优化、诊断与分析

多领域优化建议

·数据存储领域

·数据计算领域

·数据采集领域

围绕引擎采集第一手数据

·生命周期/空表/长时间未访问

·冲突任务/数据倾斜/暴力扫描

·空表导入/持续一致导入/同源导入/网络优化

多视角优化视图

·个人视角

·管理员全局视角

image.png

比较实操性的能力,第一个是存储方面还有计算方面,存储典型的是很多的数据被抽取到数据仓库当中长期不被使用,这些数据需要发现它或者有些数据没有作业去处理和计算,某些作业是相同的作业有重复的计算,这些场景是经常在数据仓库中碰到的问题,需要一个自动化的手段能够发现这些无用的或者低效的一些数据以及计算任务,通过这种数据的优化点的发现,能够很好的帮助企业去做数据治理的管理。


八、基于MaxCompute的解决方案和案例介绍

一个技术平台的数据仓库,更多的是支持业务场景,所以这里边会简单的去介绍一下MYSQL的典型的新的解决方案和一些案例。

1、MaxCompute 能够解决自建数据平台的痛点问题

自建数据平台面临的挑战

建设成本高:

初始投资高-购买软硬件、构建专业团队

周期较长&风险高-从建设到投入使用的周期较长,以月为单位,业务风险高

扩展性与弹性(匹配业务需求的能力)不足:

滞后业务需求-依赖容量规划、采购周期等条件,平台能力扩展往往滞后于业务实际发展的需要

规模容量限制-容易受到机房容量限制,扩容困难

受限的弹性能力-固定规模的资源池,难以满足突发业务需要的临时弹性需求

资源利用率低:

集群资源利用率低-业务天然地存在不同类型的峰谷变化,导致集群按峰值扩容,显示资源使用率低

为存储扩容计算-由于存储与计算需求的不一致,往往需要为存储空间扩容集群,导致浪费

运维维护成本高:

保障服务 SLA 的成本高-需要投入专家团队进行集群版本升级、根据管理需要进行二次开发和功能增强,运维管理的人力投入较高;

人员流失变化对系统影响大-自建数据平台的长期发展、演进,对企业的核心技术人才依赖高;

上云工具(MMA)

·迁移评估

·数据迁移

·作业迁移

MaxCompute云上服务

极大降低了使用门槛

·开箱即用,内置完整功能和生态配套

·支持按作业付费(Pay as you use),支持以极低的费用 进行业务概念验证后投入生产

近乎无限扩展

·超大资源池,支持 TB  EB 规模数据仓库的扩展

·无需容量规划,自适应处理不同业务规模,规模增长性能不降级

·计算和存储独立伸缩

敏捷-加速应用交付

·全托管、免运维-最小化在平台运维方面投入,团队可聚焦于数据应用开发和数据管理

·面向业务的敏捷平台:可低成本,快速完成数据应用/数据产品的原型验证,业务规模增加后,系统自适应扩展,应用无需改动、调优

精确匹配需求的极致弹

·按需伸缩:根据每个作业的需求实时,精准分配资源,单作业最大可分配成上万 Cor e计算资源,保障算力

·应对幕并发:自动应对业务峰谷变化的资需求

内建的企业级服务

·服务级别的高可用设计,而向使用者承诺99.9% SLA

·内建数据加密、脱敏、持续备份、审计日志功能

·支持跨地域容灾

第一点是大数据的商品或者对传统数据平台的一种云化,或者现代化仓的解决方案,开篇的时候是说自建数据平台面临很多的挑战,在刚才讲到云上的服务,其实在很大的程度上能够解决下的自建的一些痛点,所以迁移上云其实是一个现在比较成熟的解决方案,借助少上云工具 MMA 能够在线下 IDC  Hadoop 生态的数平台做数迁移的评估做数据迁移做作业的迁移转换,然后能够把自建平台迁移到云上的服务,优势和特性能够被企业所使用。

2、大数据上云解决方案

大数据搬站是云上生态体系的融合与升级

image.png

基于阿里云的飞天大数据一套比较完整的、成熟的、可治理的套云创大数据解决方案

某母婴行业客户云上大数据仓库

image.png

客户简介

XXX成立于2007年,中国最大,最活跃的母婴类社区平台。作为最早做互联网 2C 的社区平台之一,XXX 很早就建立了自己的 IDC 集群,而且规模越来越大。

客户需求

·集群水位高,性能差,亟待大数据综合治理

·IDC 大数据每年投入成本高,希望降本提效

客户价值

从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks 后,部分任务有 10 倍以上的性能提升,存储从自建 Hadoop3PB 降到 900T,利用 Flink 实时数据处理能力,将 XXX 现有的场景实时化("基于用户 ID 维度和内容类型的实时行为",“获取用户的实时群聊 ID”及“获取文章的实时发布信息”),并且慕于 Flink 进行实时推荐增加转化率。大数据平台整体成本节省 30% 以上

这是客户案例,是母婴行业的一个头部客户,是在 IDC 海路

陆自建的时候存在很多的痛点,包括集群的水位太高,性能不够,然后缺乏智力的手段,同时 IDC 大数据每年的投入是非常高的,希望能够将满绩效,启动云上迁移的项目,把企业线下 Hadoop 的 3PB 的数据迁移上云,MaxCompute 本身有一些技术上的特点,在存储方面有一些自研的压缩的格式,能够把企业的不同的开源格式保存到 mysql 的数据格式,然后做一些深度的数据压缩大大降低企业的存储成分,同时基于 MYSQL 的以及 Dataworks、Flink 的一套解决方案,客户在业务上面从过去离线的数据分析能力进一步的进行了获得实质化的能力,然后提供实时推荐。

3、智能实时数据仓解决方案

方案说明:适用于电商、游戏、社交等互联网行业大规模数据实时查询场景

方案优势:1)阿里云实时数仓全套链路,与离线数仓无缝打通。2)满足一套存储,两种计算(实时计算和离线计算)的高性价比组合

产品组合DataHub+实时计算 Flink+交互式分析+MaxCompute +DataWorks+QuickBI/DataV

1.数据采集-通过DataWarks(批量DataHub买时进行统一数接入。

2.基于 Dataworks 完成数据全链路研发;包括数据集成数据开发& ETL 转换及 KRT 计算等开发,以及数据作业的调度、监控、告警,Datworks 提供的据开发路的安全管控的能力。以及基于Dataworks 的数据服务模块提供统一数据服务 API 能力

3.实时数按实际业务需求使Flink 中进行实时 ET1 (可选)结入库交互式分产品构建实时数据仓库应用集产,并提供海量数据的实时交互询和分析,交互式分析提件实时高线联邦管询历史离线数据存放 MaxCompute 实时分析数据停放于交互式分析

4.基于 Quick BI 进或第三方数据分析工具如 Tableau 行数据可视化以及构建各业务板块数据服务门户应用

image.png

最常见的是智能数仓方案,在云上提供完整的一套阿里云的解决方案,很多的企业不管是在云上新的云创业公司,云原生的企业可以利用阿里云全托管的一套解决方案,能够很敏捷的去构建一套面向电商、游戏等等行业实时化的数据仓库解决方案。

(1)某视频行业用户:新一代云原生数仓,离线实时一体化

某视频行业客户是一款原创视频、全能剪辑的短视频社区 APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破8.9亿

image.png

某个视频行业的客户,基于 MaxCompute 实时计算和 Hologres构建了一套原生的处理仓库,更多的是接触一套技术平台去做用户标签的管理、用户画像的分析,同时通过实时视频推荐,提升自己的产品的转化和活跃。

(2)某视频行业用户-基于 MaxCompute 的大数据应用

image.png

利用 MaxCompute 构建了一套完整的大数据平台,选择原因第一服务是开箱即用,简单易用的状态,同时是基于阿里上一套完整的大数据生态,同时 MaxCompute 本身特性带来的强悍的性能能够满足规模非常大的企业的需要,由于弹性资源,在云上做了非常多的弹性资源的能力,比如分时资源管理,打通等等非常实用的一些能力,能够最大化的去平衡成本和弹性的需要。

(3)某视频行业客户-基于 MaxCompute 的大数据应用

image.png

基于平台可以构建分层的数据仓库,基于数据仓库做大数据应包括反作弊、运营分析。

4、云上大数据仓库解决方案

方案说明:适用于互联网、金融、政府、传统企业等大数据仓库

方案优势:

阿里巴巴大数据最佳实践,高性能、低成本、Severless 服务,免运维、全托管模式,让企业的大数据研发人员更聚焦在业务数据的开发上

产品组合:

MaxCompute+DataWorks+Flink

场景说明:

1.用户数据来源丰富,包括来自云端的数据,以及外部数据源,数据统一沉淀,完成数据清洗、建模;

2.用户的应用场最复杂,对非结构化语音,自然语言文本进行语

音识别、语义分析、情感分析等,同时融合结构化数据搭建企业级的数据管理平台,并且计算和存储成本最低;

3.平台支撑多种形式的应用,包括使用机器学习算法进行复杂数

据分析、使用BI报表进行图表展现,使用可视化产品进行大屏展示、使用其他自定义的方式消费数据。

功能说明:

1.多种数据源同步到大数据计算服务

2.对结构化数据和非结构化数据( UDF )进行处理

3.进行大数据计算和分析

4.为其他应用提供计算支持

image.png

 

九、MaxCompute 产品规格介绍

1、MaxCompute 服务模式

开通 MaxCompute→服务注册

开通 MaxCompute 相当于对服务进行注册,同时产生有协议的订单,订单成功后即可使用该服务。

按量计费

整个订单计费模式都为使用之后再按量计费,包括计算,存储,下我

几大块主要功能。

开通时为0元开通,开通后若不使用则无费用产生。

包年包月

订单计费模式为混合模式,计算资源是按包年包月进行预付费,存储

和下载则为使用之后在按量计费。

开通时需要预先对计算资源进行付款。

MaxCompute 服务由于是 service 架构,所以提供按量付费,对于很多客户在初期使用服务或者说对弹性要求非常高的时候,使用按量付费,能够获得最极致弹性,根据业务的变化和波动能够实时的匹配业务需求,这是按量付费服务模式最大的特点,当不使用的时候不花钱,在很多产品里面非常有价值。

第二部分很多的用户平台构建比较成熟,作业很稳定,这个时候需要选择包年包月,然后购买一个比较长的时间段,单价会低一些,同时享用折扣,更好去控制。

(1)按量计费-标准版

基础资源

计算资源

极致的弹性计算资源,资源池为共享型,计算任务按需抢占,不可指定使用量也无使用限制。

包括SQL(含UDF)、MapReduceSpark交互式分析(Lightning) Graph 等计算类型资源。

存储资源

资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。

上传、下载数据资源

资源池为共享型,按需抢占,不可指定用最也无使用限制。主要包括Tunnel  Upload Download 资源。

计费说明

计算资源( CU )收费:按各计算类型任务使用量计费。当前仅 SQL、MR、Spark、交互式分析几类计算任务有计费。

存储收费:只收表( Table )存储的容量费用。且容量大小是压缩后的数据

数据上传、下载收费:数据上传至 MaxCompute 为免费;仅对通过公网下载进行按量收费

按量付费里面有几个点,对大家做选型可能会有帮助。第一是计算按作业收费提交一个作业收一个作业的钱,不用不花钱,每个作业是根据需要分配一个资源,这是按量付费资源一个很大的特性,弹性资源

第二个存储、计算分离,只需要为实际存储的大小付费, MaxCompute 是高度压缩的一个存储格式,所以基本上会对标准的数据有三到五倍不等的压缩比,这样的模式很大的降低了用户的成本。还有是数据种网下载的费用。 

(2)包年包月-标准计算资源

基础资源

计算资源

包含计算资源单元和非预留计算资源两种。

计算资源单元即为预留计算资源,必选资源。资源池为独享型,按购买 CU 量固定分配资源。非预留计算资源为非必选资源,资源数量在 0,购买量]区间内且不可独享。

计算任务只能占用预留和非预留计算资源。资源可以执行 SOL (含UDF ) MapReduce SparkGraph等计算类型任务。

存储资源

资源池为共享型,按需存储,无使用限制。包括表( Table )和资源( Resource )等存储

上传、下载数据资源

资源池为共享型,按需抢占,不可指定用最也无使用限制,主要包括Tunnel  UploadDownload 资源。

计费说明

计算资源( CU )收费:服务开通生成订单时就需要预先付费,按 CU 量和购买时长进行收费。预留和非预留资源单价不一样。

存储收费:只收表( Table )存储的容量费用。且容量大小是压缩后的数据。

数据上传、下载收费:数据上传至

MaxCompute 为免费:仅对通过公网下载进行按量收费

包年包月计算不再额外花钱,存储是独立伸缩根据实际存储的大小来收费。

(3)包年包月-套餐版

基础资源

计算资源

套餐中的预留计算资源为独享资源,按购买套餐固定分配计算资源。非预留计算资源为非必选资源,资源数量在[0,购买量]区间内且不可独享。

计算任务只能占用预留和非预留计算资源。资源可以执行 SQL(含UDF)、MapReduce SparkGraph等计算类型任务。

存储资源

资源池为共享型,按需存储,无使用限制。包括表( Table )和资源( Resource )等存储。

上传、下载数据资源

资源池为共享型,按需抢占,不可指定用量也无使用限制。主要包括Tunnel  UploadDownload 资源。

计费说明

计算资源( CU )收费:服务开通生成订单时就需要预先付费,按套餐和购买时长进行收费。预留和非预留资源单价不一样。

存储收费:只收表( Table )存储的容量费用。且容量大小是压缩后的数据。每日按购买的套提供固定的存储量,超出的量另行计费

数据上传、下载收费:数据上传至 MaxCompute 为免费;仅对通过公网下载进行按量收费

套餐是经常在客户选做预算选型的时候,往往是根据线下的 Hadoop 集群,数据平台规格去做云的预算和选型这个时候也需要做一些固定资源大小选型,套餐的模式同时包含了计算和存储两两部分费用,买一个套餐存储和计算不再额外花钱,同时俩组合在一起成本更加优惠

 

十、总结

image.png

MaxCompute - 被广泛使用的可信赖的企业数据平台

MaxCompute - 符合现代企业数字化需求的领先数据平台

MaxCompute - 基于云的低成本、高效能的敏捷数据平台

MaxCompute - 赋能数据驱动的组织变革,数据仓库/数据中台的理想技术底座

MaxCompute 作为阿里云飞天大数据的一个核心的数据仓库有几个关键的特性,第一它是被阿里内部以及企业广泛使用的可信赖的数据平台同时也是满足数据平台在新的时代技术变革的现代化的数据需求,既能在一份数据上有多种计算模型,能够满足 BI 数仓、实时数仓、继续学习分析、数据湖多种使用产品的需要,同时 mysql 在长期的技术投入实战有非常高的性能和非常低的成本。接触 mysql 的企业可以构建敏捷的低成本的可持续发展的平台

同时有超大规模的数据存储能力,所有企业的数据可以集中在一起,通过统一的源数据和数据资产管理,在企业内部赋能组织中的每个员工,在安全共享的环境下去使、分析数据,在阿里的数据中台当中 mysql 是数据平台最佳的技术底座。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
|
3月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
68 0
|
6月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
|
3月前
|
分布式计算 大数据 调度
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
21 2
|
5月前
|
分布式计算 资源调度 Kubernetes
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
|
6月前
|
分布式计算 资源调度 Java
大数据Spark部署模式DeployMode
大数据Spark部署模式DeployMode
69 0
|
9月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的多路复用模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式,讲解其数据采集流程。
100 0
|
9月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
74 0
|
3天前
|
存储 弹性计算 NoSQL
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
阿里云突发!上百种云产品大规模降价,云服务器、云数据库、存储价格下调
|
3天前
|
Cloud Native 自动驾驶 NoSQL
亚太唯一,阿里云连续4年入选Gartner®云数据库管理系统魔力象限领导者象限
国际市场研究机构Gartner®日前公布2023年度全球《云数据库管理系统魔力象限》报告,阿里云成为亚太区唯一入选该报告“领导者(LEADERS)”象限的科技公司,同时也是唯一一家连续4年入选“领导者”象限的中国企业。
亚太唯一,阿里云连续4年入选Gartner®云数据库管理系统魔力象限领导者象限

热门文章

最新文章