大数据分析平台产品对比之MaxCompute 篇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的MaxCompute。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。

之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的ODPS,现在更名为MaxCompute,https://www.aliyun.com/product/odps。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。但在尝试使用ODPS后,­­ODPS感觉也是一款不错的大数据分析产品。本文主要为大家介绍关于ODPS的使用体验,同时也会与Redshift及Bigquery做对比,让大家对各款云产品有初步的认识。

鉴于很多人对ODPS不是很熟悉,在这里有必要简单介绍下。ODPS 是阿里云旗下一款功能较为齐全,使用便捷,完全托管的PB级别数据仓库产品,用于解决用户在分析大数据过程中遇到的问题。ODPS提供多种数据导入/导出手段,使用户数据轻松上云。且完全屏蔽底层算法的实现,即便没有分布式编程经验的开发人员,也能快速完成分析工作。同时ODPS提供的多种计算框架,在使用习惯上与开源Hadoop基本一致,用户不需要过多的额外学习就可以基本掌握ODPS的使用方法。此外,阿里云数加产品还为ODPS提供了友好的图形化界面,方便用户开发、配置作业,完成多用户协同工作。阿里云下的另一款产品CDP能够提供ODPS与阿里云旗下其他产品的数据互通。

下面,我将从准备工作、数据导入、BI分析以及机器学习、流式分析等场景介绍ODPS。


准备工作


在正式使用之前,仔细阅读了ODPS的文档,这个还是很有必要的,对产品的基本概念、安全策略、售卖方式要有足够的了解。在此之后再进行创建Project,Table等操作(各家的组织结构不尽相同,RedShift有Cluster、Database,Bigquery有Project、Dataset,ODPS是Project)。

在这方面ODPS和Bigquery明显好于Redshift,前两者真正做到了开箱即用,在创建Project后,即可进行数据开发工作,无需额外的启动服务及系统配置工作。用户不必关心硬件配置、系统规模等繁琐的配置。作为一款完全托管的大数据分析产品,ODPS可以根据业务情况做到计算资源自动弹性伸缩。但亚马逊要先启动Cluster,再创建Project,且在此过程中还需要诸多配置工作(这也难怪,AWS几乎都是基于ECS的)。

在付费方面,ODPS和Bigquery完全是按照云的理念按量付费,每运行一个作业产生一笔账单。这个不得不要吐槽亚马逊,超级贵啊有没有,几乎是国内ODPS的数倍!而且是按月出账单,稍不留神几千大洋就被扣掉了。本人就是一时疏忽损失了2000人民币,这也是我告诫大家仔细看文档的原因。可是,亚马逊和google的文档都是英文的,这是为神马?亚马逊不是要进中国嘛?可为啥到现在连中文文档都没有,为啥没中文文档,为啥没中文文档,为啥没中文文档?重要的事情…

说到文档,Bigquery的文档也还是较为简单,感觉也不过是Google放出来摆摆样子。Google强大的云计算技术并没有真的想施舍给中小企业。ODPS的文档还是比较全面的,描述准确、细致。虽然使用起来还是感觉有点小贵,但据说会很快推出降价策略。ODPS在成本控制方面也很用心,SQLCost这个命令可以估算每条SQL消耗的费用,很好用。


数据上云


如何使数据上云是大数据处理中遇到的第一个难题。通常情况下,在起始阶段会花费大量时间将数据导入云产品中。

ODPS是一款将存储与计算集成的产品,数据在导入ODPS后即可参与计算。ODPS提供多种操作简便的数据导入工具,通过简单的几项配置操作后,即可以通过数据导入工具将数据上传至ODPS。用户也可以通过ODPS提供的Restful API及Java/Python SDK完成多种多样的定制化场景需求。此外,ODPS可同现有生态对接,已经实现与OGG,Fluentd,Sqoop的对接,通过这些工具用户可以完成Oracle,Mysql,Hadoop的数据阐述。阿里云的CDP能够帮助用户完成云产品见的数据同步工作,例如:RDS、OTS、OSS的数据导入导出。


Redshift支持将S3、EMR、DynamoDB等产品的数据导入其中。当然最基本的,Redshift也支持Remote Host数据,可惜我从来没成功过。这也暴露了国外云厂商的缺点:距离有了,美没了。Bigquery支持导入BigTable的数据。


BI开发


有了数据,就可以进行数据查询。ODPS提供了友好的UI界面能够让用户定义数据查询。并且可以通过简单的控件拖拽方式决定多个任务间的依赖关系,不在需要编写复杂的任务调度工具。这的确节省了我大量的时间。一旦任务失败,会有报警短信发给我,不用担心白天由于报表没产出,老板给我脸色看。


如果想尽快获取SQL查询结果,可以通过简单的配置获得ODPS提供的准实时查询能力。这个是ODPS内置的,不需要将数据迁移到其他产品中。当然,如果不满足于ODPS提供的数据实时处理能力,想借助RDS或者ADS完成更快速的交互式查询及多维分析,可以通过CDP,将ODPS中的数据导入到RDS中。我当时使用的是ADS,更加便捷,可以直接加载ODPS的数据。这些产品可以为企业决策提供提供更快速的数据支持。


在这方面,Redshift及Bigquery真的显得乏善可陈。虽然Redshift支持jdbc协议,可以对接多种BI分析工具。但shuju.aliyun.com中提供了非常多的BI工具及分析套件。之前有见过阿里巴巴内部的BI分析师使用这套产品。


数据挖掘及机器学习


随着业务的不断发展,很多用户已经不满足于简单的BI分析,想通过数据挖掘及机器学习算法完成更位复杂的数据业务,例如:广告,个性化推荐,用户分类等。但并不是每家企业都具备开发分布式算法的能力,ODPS上面的PAI算法平台有不少常用算法,例如分类,聚类,预测,甚至还有深度学习算法。比较特别的是,这些算法通过简单的拖拽动作就可以搞定,无需使用者介入枯燥的编程工作,降低操作使用门槛。我之前通过阿里云发布的沟通邮箱申请了试用:



更为重要的是,用户可以通过ODPS提供的MapReduce、扩展的MRR及Graph模型提供定制算法的能力,并可以将这些算法分享给其他人。

这方面我没深入了解过AWS及Google。之前听说过AWS的Amazon Machine Learning,只可惜看到售价就差点把我吓跑了,按照条数收费。第一次尝试处理4MB数据,收了25美金....然后,就没有然后了。虽然AmazonMachine Learning同样提供可视化的工具和向导,但看看定价,还是算了。


流式分析


除大家熟知的离线分析能力,StreamCompute流式数据处理解决了实施数据处理的难题。不同于Storm,StreamCompute为提供的是SQL查询接口。普通的BI分析师也可完成流式开发工作。对于我这种懒人,是非常有吸引力的。只要一个SQL就搞定了:



结语


总的来说,目前把云计算当做重点发展业务的恐怕只有亚马逊和阿里云。Google怎么看起来都像是玩票的感觉。虽然也有很多小厂商投入到云计算的市场,但考虑到这个行业的特殊性(业务要求严苛,技术投入高),我还是会选择亚马逊、阿里云这样的大公司。从国内的服务现状来看,亚马逊虽然出道早,产品深入人心,但从定价、服务、使用习惯上,国内企业则更占优势。况且,阿里云ODPS这半年来更新很快,例如:加入了对Flume、Fluentd、OGG等数据导入插件的支持,定价也在准备下调。


bba01b493e1c5d904e882b1c380673c6ebe49a98
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
37 15
|
5天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
31 13
|
5天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
19 4
|
8天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
6天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
40 4
|
3天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
37 0
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
296 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
46 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
86 1

相关产品

  • 云原生大数据计算服务 MaxCompute