4.互联网、电商离线大数据分析最佳实践(二)|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习4.互联网、电商离线大数据分析最佳实践

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:4.互联网、电商离线大数据分析最佳实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1252


4.互联网、电商离线大数据分析最佳实践(二)

四、MaxCompute五大产品特性

Maxcompute 有五大特性,用户无需要做跟运维相关的动作,在上面可以基于maxcompute 大数据的开发,后面也会有成本的对比,可以对比开源的大数据体系,能够有效的降低运维成本,能够总体降低的整个数据开发的存储的成本,包括安全可靠里,面是多租户的隔离的机制,还有非常完整的授权体系,也能够支持各种开源的生态。

1、开箱即用在线服务

五分钟即可开通大数据平台

(1)5分钟开通数加控制台

1数加控制台

2SDK

3客户端

(2)无需平台维护

MaxCompute

(3)一站式大数据服务

DataWorks

基于 InteliJ 的 Stduio

2、高效能低成本

持续高效低成本的大数据引擎

(1)成本最低

2016年 SortBench100TB 排序0.82$/TB

(2)速度最快

2015年 SortBench100TB 排序377秒

(3)按需扩展

1从GB、TB到PB、EB排序377秒

2零运维介入

3、安全可靠

多租户数据安全保障机制

(1)项目级别安全

独有的基于项目级别的数据保护机制

(2)跨租户访问控制

1Package 授权

2Trusted 模式

3阿里云 RAM

(3)久经考验

阿里集团历届双11的核心数据平台

4、支持多种分布式计算模型

满足不同场景下的技术需求

(1)SQL

(2)采用标准的SQL语法

(3)MapReduce

在MR基础上支持MR2,Map接多个Reduce

(4)图计算

适合复杂的迭代计算场景

5、生态融合

支持多样数据源、生态工具和标准

(1)数据上云

OGG,Sqoop,Flume,FluentD

(2)社区兼容

SQL,HadoopMR,HiveThrift

(3)生态连接

JDBC,ODBC,R,Python,Pandas,IntelliJIDEA


五、MaxCompute优缺点

做大数据分析难免会跟 hadoop 做比较。

1.Hadoop

(1)优点:

Hadoop生态、组件丰富;

(2)不足:

固定的机型,软件版本,手动部署;

租用费高,需要人工运维,成本高;

需要搭建额外的消息中间件集群or关系型数据

库;

需要额外的安全机制;

多集群多组件版本带来的可靠性下降;

2.MaxCompute

(1)优点:

超大规模扩展能力;

按需仅计算和存储收费,toc帮助节省50-70%;

数据统一、元数据统一、资源调度统一、安全统一、多租户的

权限认证,多层沙箱防护、网络隔离、数据细粒度管理;

阿里云产品之间集成度较高;

集群完全托管免运维、提供数据恢复、三副本保证;

(2)不足:

数据实时写入,实时可见;

主要是批的场景,流的场景需要客户对接Flink。


六、方案优势

1、大规模存储:超大规模存储自动扩容,最大可支持EB级别的数据。

2、高性能:同时性能更稳定;如1TB数据规模的 TPC-DS,MaxCompute

比 Spark 快

28%,比 Hive 快76%,比Impala快7%。

3、低成本:相比自建降低30%以上成本。

4、安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙

箱中运行。

5、图形化编辑界面,拖拽就可以完成专业级大数据可视化。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
302 0
|
5月前
|
NoSQL 大数据 知识图谱
面试题MySQL问题之想使用Neo4j发现隐藏的关系如何解决
面试题MySQL问题之想使用Neo4j发现隐藏的关系如何解决
52 1
|
大数据
《2017 中国互联网消费生态 大数据报告》电子版地址
2017 中国互联网消费生态 大数据报告
62 0
《2017 中国互联网消费生态 大数据报告》电子版地址
|
分布式计算 DataWorks 数据可视化
4.互联网、电商离线大数据分析最佳实践(三)|学习笔记
快速学习4.互联网、电商离线大数据分析最佳实践
4.互联网、电商离线大数据分析最佳实践(三)|学习笔记
|
大数据
《互联网大数据应用&解决方案》电子版地址
《互联网大数据应用&解决方案》PPT
72 0
《互联网大数据应用&解决方案》电子版地址
|
存储 机器学习/深度学习 人工智能
三剑合一称霸互联网时代——Serverless助推云计算-大数据-人工智能
三剑合一称霸互联网时代——Serverless助推云计算-大数据-人工智能
217 0
三剑合一称霸互联网时代——Serverless助推云计算-大数据-人工智能
|
SQL 分布式计算 DataWorks
互联网、电商行业离线大数据分析
最佳实践覆盖23种场景,有180多篇最佳实践,其中涉及100款以上阿里云产品的最佳使用场景,最佳实践已成功帮助大量客户实现自助上云。
互联网、电商行业离线大数据分析
|
大数据
互联网时代,一份投资理财大数据报告能改变什么?
互联网时代,一份投资理财大数据报告能改变什么?
143 0
互联网时代,一份投资理财大数据报告能改变什么?
|
SQL 分布式计算 算法
传统金融IT男转型互联网大数据码农,图啥?
传统金融IT男转型互联网大数据码农,图啥?
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
296 7