ODPS大讲堂之概述篇-问答-阿里云开发者社区-阿里云
开发者社区
>
问答
>
正文
ODPS大讲堂之概述篇
halcyon
2014-04-27 10:33:22
23625
1. 什么是Tunnel?
tunnel是用来上传,下载数据用的。用户可以使用tunnel提供的java sdk接口将mysql,oracle的数据导入odps。也可以将odps的数据再导回mysql。通常情况下的商业场景是:用户将白天积攒下来的商业数据(例如淘宝的交易数据)导入odps,然后使用sql,mapreduce,或者是xlib(其实odps不只这几种计算功能,后续会开放更多),对数据进行计算,处理,挖掘。计算出最后的结果后,再将这些结果数据导回到mysql或者oracle。
用户使用tunnel是需要完善reader/writer接口。odps tunnel进提供了抽象的reader writer接口。reader writer的具体工作需要用户自己编写完成,例如实现mysql reader,或oracle writer。此外,上传及下载数据时,还需要创建上传或下载的会话(Session)。
dship工具就是一个tunnel服务的客户端,基于tunnel的sdk实现。dship工具用来读取本地文件,将本地文件内的数据导入odps的表。
关于tunnel最重要的话:本次竞赛没有开放tunnel服务,用户开发的tunnel程序及odps提供的dship工具都无法使用。实际上我们也没给这次大赛提供dship工具。哈哈哈哈哈。
2. ODPS SQL,MapReduce及Xlib的区别?
说下ODPS SQL,MapReduce及Xlab的区别吧。
先说MapReduce,它是一种计算框架,最早由Google提出。大家可以Google下,到处都是介绍,有不少同学批评ODPS的文档写的不好,那就Google吧,哈哈。基于MapReduce的框架概念可以做很多事情,比如说,可以通过MapReduce计算框架完成分布式SQL的实现,当然也可以实现Xlib的部分功能。对于MapReduce计算模型的简单介绍在odps_doc中Mapreduce的开篇有说明,希望对大家有帮助。
但ODPS的mapReduce功能和与ODPS的SQL的关系有点“本末倒置”的意思。ODPS的MapReduce是通过ODPS SQL实现的。我们实际上是将用户写的mapper函数及reduce函数包装成UDTF,并生成对应的SQL,扔到ODPS里去执行的。用户看起来是MapReduce,但实际上是sql。这里面有点绕,正常情况下MapReduce可以用来实现分布式SQL,但我们却用分布式SQL实现MapReduce。为什么会这样呢?你猜呀?
说道ODPS SQL我可先解释上述问题的一部分原因。ODPS的SQL不是基于MapReduce框架实现的,而是另一种更为复杂的图模型计算框架。给大家提供几个关键字"阿里云", “飞天”, “王坚”, “唐宏”,还有“山水”。这个我估计Google搜不到,大家百度吧。关于SQL功能的介绍我会在另一篇贴子里描述。请大家注意看,其实这帖子已经发出来了,但好像没人看,请搜关键字"ODPS大讲堂"。
关于Xlib,这块其实我也不懂,因为不是我做的(其实MR和SQL也不是我做的)。如果说MapReduce是计算框架,SQL是数据处理语言,那么Xlib就是数据处理算法(方法)。Xlib提供了大量的数据处理,包括数据挖掘的方法。比如说逻辑回归,Kmeans,矩阵运算,等等等等。Xlib中的诸多算法有的依赖于MapReduce框架实现,有些据说依赖于SQL实现,只是据说。有些是通过迭代框架实现的。通过迭代实现的算法大家要小心使用,因为迭代算法对集群资源消耗比较严重,你用了,别人就用不了了,小心其他同学骂你,呵呵。走自己的路,让别人无路可走。
大家有什么疑问可以回复这个帖子。我会逐一回复所有人的提问。
SQL
分布式计算
算法
Oracle
关系型数据库
MySQL
Java
数据处理
MaxCompute
开发工具
添加回答
分享到
取消
提交回答
全部回答(19)
ifhere
2015-09-14 10:07:39
ReODPS大讲堂之概述篇
那为何MapReduce上可以详细设置参数, 而SQL则不行呢?
0
0
网络新贵
2014-11-25 16:32:02
ReODPS大讲堂之概述篇
[font=微软雅黑, 'Microsoft Yahei', 'Hiragino Sans GB', tahoma, arial, 宋体]很强大
-------------------------
ReODPS大讲堂之概述篇
很强大
0
0
ddddddd
2014-10-24 16:41:17
ReODPS大讲堂之概述篇
那位高手给个链接,xlab在哪下的,没找到
0
0
clouduser
2014-07-09 16:58:45
ReODPS大讲堂之概述篇
ODPS 支持的Map Reduce是多少的版本?
0
0
loveye_86
2014-04-29 16:49:35
ReODPS大讲堂之概述篇
厉害
0
0
滑动查看更多
数据库
使用钉钉扫一扫加入圈子
+ 订阅
分享数据库前沿,解构实战干货,推动数据库技术变革
推荐文章
LinkedIn Feed流视频自动播放架构演进
阿里云 MaxCompute 2021-2 月刊
【技术短视频】OceanBase 5mins Tips | 如何合理的选择数据库存储引擎?
以“用户播放行为与体验”为核心的视频服务质量优化
通过端到端的数据侦测提升QoS
城市大脑 | 企业诚信平台
依赖DataWorks补数据实现圈人
快手基于 Flink 的持续优化与实践
开放下载!新品发布产品资料|持续更新中
电商场景实战之漏斗模型
展开
相似问题
【大咖问答】对话PostgreSQL 中国社区发起人之一,阿里云数据库高级专家 德哥
惊喜翻倍:免费ECS+免费环境配置~!(ECS免费体验6个月活动3月31日结束)
【新手入门】云服务器linux使用手册
OceanBase 使用动画(持续更新)
OSS存储服务-客户端工具
阿里云开放端口权限
安全组详解,新手必看教程
阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本
【精品问答】python技术1000问(1)
区域选择帮助
展开
推荐课程
JFR诊断增强
学习人数:
0
Spring Cloud微服务架构设计与开发实战
学习人数:
0
Spring Boot 2.5.x开发实战
学习人数:
0