【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute大家都不陌生,之前产品名称叫ODPS,之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出,帮助政府、互联网公司、金融等进行大数据项目服务,使得数据变现。很多开发者都会把MaxCompute和开源社区Hadoop、hive进行比较,此处不做过多评论,各有优势。

MaxCompute大家都不陌生,之前产品名称叫ODPS,之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出,帮助政府、互联网公司、金融等进行大数据项目服务,使得数据变现。很多开发者都会把MaxCompute和开源社区Hadoop、hive进行比较,此处不做过多评论,各有优势。但是不得不说MaxCompute这几年在生态上向前走了一大步。

关于 MaxCompute2.0 对开源系统的支持与融合 的整体介绍及团队规划,详见文档

最近,我也针对MaxCompute在生态融合上也进行了一些研究和拜读,因为现在资料还比较零散,就把自己在过程中遇到的好材料统一为大家梳理如下,包括SDK、JDBC等。

MaxCompute SDK

首先我们先来看SDK,想必很多有能力的互联网公司都有大量的个性化需求,都会对SDK/API有一些需求,比如小黄车这样的体量大的客户,就基于MaxCompute SDK做了大量的应用。那具体SDK包括Java、Python、R以及PHP(PHP为社区提供,并非阿里云官方出品,但都可以满足大部分需求)。如图所示:


 更大强大的功能,大家可以期待下团队将在北京云栖大会对外正式公测的python UDF,这将大大的提高python开发者对MaxCompute的开发效率和功能。  

  • R SDK:RODPS也较大满足开发者使用R做数据分析的需求,具体安装及使用可以详见 云栖社区博文

  • PHP SDK:PHP SDK并非MaxCompute团队官方出品,由社区招募完成开发工作,具体有PHP需求的同学也可以参考PHP SDK文档,可以满足PHP开发的大部分需求。

MaxCompute JDBC 2.2 发布说明

对接已有软件并提供标准JDBC编程接口,MaxCompute JDBC 2.2正式版已于2017年2月24日正式发布。

  1. 通过Apache Zeppelin 快速实现数据可视化
  2. 借力QlikView玩转数据分析

Hive Proxy

提供Hive Thrift协议兼容接口,对接Hive社区已有的工具。Hive Proxy 部署在客户端,将 Hive 的 thrift 请求转换成 MaxCompute 的 Restful API 请求,可以用来直接对接诸如 Tableau、Qlik 这样不直接支持 JDBC 的 BI 工具,或者 HPL 这样的 Hive 组件,详见 博文

  • 示例1:复用Hive ODBC实现Tableau到MaxCompute的连通
  • 示例2:复用Hive JDBC实现Beeline到MaxCompute的连通

具体详见:https://yq.aliyun.com/articles/61262

ETL tool-数据上云工具

  • Kettle:[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云
  • sqoop:MaxCompute有一款是基于社区sqoop 1.4.6版本开发的Sqoop,增加了对MaxCompute的支持,可以支持将数据从Mysql等关系数据库和MaxCompute的导入和导出,也支持从Hdfs/Hive导入数据到MaxCompute的表中。 具体用法可以参考:https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop
  • OGG:主要适用于源库为Oracle,可以通过其采集实时更新数据到DataHub中
  • Fluentd:该插件遵守Fluentd输出插件开发规范,安装方便,可以很方便地将采集得到的数据写到DataHub
  • Flume:Flume插件下载并安装地址,基于Apache Flume Datahub插件将日志数据同步上云,点击进入
  • Logstash:Logstash是一种分布式日志收集框架,非常简洁强大,经常与ElasticSearch,Kibana配置,组成著名的ELK技术栈,非常适合用来做日志数据的分析。

  关于Logstash将日志采集MaxCompute,然后做数据分析有详细step by step 文档,点击进入。  


Spark on ODPS、ElasticSearch on ODPS等在专有云和阿里集团内成熟应用,公共云上的开发者可能要耐心等待一段时间。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
1月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
1月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
1月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
SQL 人工智能 分布式计算
MaxCompute平台非标准日期和气象数据处理方法--以电力AI赛为例
MaxCompute平台支持的日期格式通常是对齐的日期格式诸如20170725或2017/07/25这种,而本次电力AI赛提供的日期格式却是未对齐的非标准的日期格式2016/1/1这种,使得无法直接使用ODPS SQL中的日期函数来进行处理。
5558 0
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
194 14
|
4月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
170 4
|
3月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
161 0
|
2月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
144 14

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute