开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:4.互联网、电商离线大数据分析最佳实践】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1252
4.互联网、电商离线大数据分析最佳实践(二)
四、MaxCompute五大产品特性
Maxcompute 有五大特性,用户无需要做跟运维相关的动作,在上面可以基于maxcompute 大数据的开发,后面也会有成本的对比,可以对比开源的大数据体系,能够有效的降低运维成本,能够总体降低的整个数据开发的存储的成本,包括安全可靠里,面是多租户的隔离的机制,还有非常完整的授权体系,也能够支持各种开源的生态。
1、开箱即用在线服务
五分钟即可开通大数据平台
(1)5分钟开通数加控制台
1数加控制台
2SDK
3客户端
(2)无需平台维护
MaxCompute
(3)一站式大数据服务
DataWorks
基于 InteliJ 的 Stduio
2、高效能低成本
持续高效低成本的大数据引擎
(1)成本最低
2016年 SortBench100TB 排序0.82$/TB
(2)速度最快
2015年 SortBench100TB 排序377秒
(3)按需扩展
1从GB、TB到PB、EB排序377秒
2零运维介入
3、安全可靠
多租户数据安全保障机制
(1)项目级别安全
独有的基于项目级别的数据保护机制
(2)跨租户访问控制
1Package 授权
2Trusted 模式
3阿里云 RAM
(3)久经考验
阿里集团历届双11的核心数据平台
4、支持多种分布式计算模型
满足不同场景下的技术需求
(1)SQL
(2)采用标准的SQL语法
(3)MapReduce
在MR基础上支持MR2,Map接多个Reduce
(4)图计算
适合复杂的迭代计算场景
5、生态融合
支持多样数据源、生态工具和标准
(1)数据上云
OGG,Sqoop,Flume,FluentD
(2)社区兼容
SQL,HadoopMR,HiveThrift
(3)生态连接
JDBC,ODBC,R,Python,Pandas,IntelliJIDEA
五、MaxCompute优缺点
做大数据分析难免会跟 hadoop 做比较。
1.Hadoop
(1)优点:
Hadoop生态、组件丰富;
(2)不足:
固定的机型,软件版本,手动部署;
租用费高,需要人工运维,成本高;
需要搭建额外的消息中间件集群or关系型数据库;
需要额外的安全机制;
多集群多组件版本带来的可靠性下降;
2.MaxCompute
(1)优点:
超大规模扩展能力;
按需仅计算和存储收费,toc帮助节省50-70%;
数据统一、元数据统一、资源调度统一、安全统一、多租户的权限认证,多层沙箱防护、网络隔离、数据细粒度管理;阿里云产品之间集成度较高;集群完全托管免运维、提供数据恢复、三副本保证;
(2)不足:
数据实时写入,实时可见;
主要是批的场景,流的场景需要客户对接Flink。
六、方案优势
1、大规模存储:超大规模存储自动扩容,最大可支持EB级别的数据。
2、高性能:同时性能更稳定;如1TB数据规模的 TPC-DS,MaxCompute
比 Spark 快
28%,比 Hive 快76%,比Impala快7%。
3、低成本:相比自建降低30%以上成本。
4、安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙
箱中运行。
5、图形化编辑界面,拖拽就可以完成专业级大数据可视化。