ODPS大讲堂之概述篇

1. 什么是Tunnel?
    tunnel是用来上传，下载数据用的。用户可以使用tunnel提供的java sdk接口将mysql，oracle的数据导入odps。也可以将odps的数据再导回mysql。通常情况下的商业场景是：用户将白天积攒下来的商业数据（例如淘宝的交易数据）导入odps，然后使用sql，mapreduce，或者是xlib（其实odps不只这几种计算功能，后续会开放更多），对数据进行计算，处理，挖掘。计算出最后的结果后，再将这些结果数据导回到mysql或者oracle。
    用户使用tunnel是需要完善reader/writer接口。odps tunnel进提供了抽象的reader writer接口。reader writer的具体工作需要用户自己编写完成，例如实现mysql reader，或oracle writer。此外，上传及下载数据时，还需要创建上传或下载的会话(Session)。
    dship工具就是一个tunnel服务的客户端，基于tunnel的sdk实现。dship工具用来读取本地文件，将本地文件内的数据导入odps的表。
    关于tunnel最重要的话：本次竞赛没有开放tunnel服务，用户开发的tunnel程序及odps提供的dship工具都无法使用。实际上我们也没给这次大赛提供dship工具。哈哈哈哈哈。

2. ODPS SQL，MapReduce及Xlib的区别？
    说下ODPS SQL，MapReduce及Xlab的区别吧。

    先说MapReduce，它是一种计算框架，最早由Google提出。大家可以Google下，到处都是介绍，有不少同学批评ODPS的文档写的不好，那就Google吧，哈哈。基于MapReduce的框架概念可以做很多事情，比如说，可以通过MapReduce计算框架完成分布式SQL的实现，当然也可以实现Xlib的部分功能。对于MapReduce计算模型的简单介绍在odps_doc中Mapreduce的开篇有说明，希望对大家有帮助。
    但ODPS的mapReduce功能和与ODPS的SQL的关系有点“本末倒置”的意思。ODPS的MapReduce是通过ODPS SQL实现的。我们实际上是将用户写的mapper函数及reduce函数包装成UDTF，并生成对应的SQL，扔到ODPS里去执行的。用户看起来是MapReduce，但实际上是sql。这里面有点绕，正常情况下MapReduce可以用来实现分布式SQL，但我们却用分布式SQL实现MapReduce。为什么会这样呢？你猜呀？

    说道ODPS SQL我可先解释上述问题的一部分原因。ODPS的SQL不是基于MapReduce框架实现的，而是另一种更为复杂的图模型计算框架。给大家提供几个关键字"阿里云"， “飞天”， “王坚”， “唐宏”，还有“山水”。这个我估计Google搜不到，大家百度吧。关于SQL功能的介绍我会在另一篇贴子里描述。请大家注意看，其实这帖子已经发出来了，但好像没人看，请搜关键字"ODPS大讲堂"。

    关于Xlib，这块其实我也不懂，因为不是我做的（其实MR和SQL也不是我做的）。如果说MapReduce是计算框架，SQL是数据处理语言，那么Xlib就是数据处理算法（方法）。Xlib提供了大量的数据处理，包括数据挖掘的方法。比如说逻辑回归，Kmeans，矩阵运算，等等等等。Xlib中的诸多算法有的依赖于MapReduce框架实现，有些据说依赖于SQL实现，只是据说。有些是通过迭代框架实现的。通过迭代实现的算法大家要小心使用，因为迭代算法对集群资源消耗比较严重，你用了，别人就用不了了，小心其他同学骂你，呵呵。走自己的路，让别人无路可走。

大家有什么疑问可以回复这个帖子。我会逐一回复所有人的提问。

展开

收起

halcyon 2014-04-27 10:33:22 25387 版权

19 条回答

写回答

取消提交回答

ifhere

ReODPS大讲堂之概述篇
那为何MapReduce上可以详细设置参数, 而SQL则不行呢?

2015-09-14 10:07:39

赞同展开评论
网络新贵

ReODPS大讲堂之概述篇
[font=微软雅黑, 'Microsoft Yahei', 'Hiragino Sans GB', tahoma, arial, 宋体]很强大
-------------------------

ReODPS大讲堂之概述篇
很强大

2014-11-25 16:32:02

赞同展开评论
ddddddd

ReODPS大讲堂之概述篇
那位高手给个链接，xlab在哪下的，没找到

2014-10-24 16:41:17

赞同展开评论
clouduser

ReODPS大讲堂之概述篇
ODPS 支持的Map Reduce是多少的版本?

2014-07-09 16:58:45

赞同展开评论
loveye_86

ReODPS大讲堂之概述篇
厉害

2014-04-29 16:49:35

赞同展开评论
太阳buaa

ReODPS大讲堂之概述篇
AccessID是什么？

2014-04-29 15:19:15

赞同展开评论
瀚海宝玉

ReODPS大讲堂之概述篇
我认为：MR建立在SQL基础上是为了支持更多的分布式框架，而不是局限于Map-Reduce。

2014-04-28 12:08:27

赞同展开评论
饿货

回12楼halcyon的帖子
MapReduce是一个编程模型，它是how to do，而SQL是描述性语言，表示what to do。
阿里云实际上是将SQL作为整个数据分析的API提供出来，这样屏蔽了底层的实现细节。
不负责任的说，也许SQL的底层也是MR实现的（也可能不是），但是这个MR是不可能提供给用户使用的，因为不安全。
所以，我们用的MR是架在SQL上的，一方面屏蔽底层的实现细节，一方面相当于处于sandbox保护中，更加可控。

不知道这样的理由是否正确。

2014-04-28 09:33:04

赞同展开评论
懒惰啊我

ReODPS大讲堂之概述篇
我猜是因为用的类似于graphlab这种基于图结构的
然后还有点bsp的实验有一些mpi的包是么

2014-04-28 01:50:47

赞同展开评论
eclipsedu

ReODPS大讲堂之概述篇
我看HIVE有UDAF，这个是不是没有，也不会提供？

2014-04-27 22:55:36

赞同展开评论
Jark

个人博客: http://wuchong.me

ReODPS大讲堂之概述篇
由于业务原因先有了 sql ，后来开发mr的时候发现在sql上开发快很多？
瞎猜

2014-04-27 21:12:35

赞同展开评论
halcyon

回6楼李小三的帖子
xlib都是现成的算法包，工具包，不用自己再编程了。
-------------------------

回9楼hellokitty的帖子
如果用row_number只能增加partition了。或者自己写个udf？
-------------------------

回7楼hellomr的帖子
嗯，很多人对这个表示不解，不过我目前只能解释这么多。至于为什么要这么做，算是给大家留个念想，念念不忘，必有回响。
-------------------------

回13楼jark的帖子
不对，再猜，呵呵

2014-04-27 20:55:02

赞同展开评论
hellokitty

ReODPS大讲堂之概述篇
有个问题，如果我想操作多张表的话，udf可以实现吗？
还是说我要自己写mapreduce来实现？
比如：一张表是测试集，一张表是预测的结果，我想计算f1得分的话，通过哪种方式实现更好呢？
-------------------------

ReODPS大讲堂之概述篇
还有，排序的时候，我想得到排序后的序号，但是row_number之类的都是窗口函数，必须制定partition，不然就报错，难道我只能为了排序单独再增加partition？

2014-04-27 18:54:49

赞同展开评论
hellomr

ReODPS大讲堂之概述篇
这不会是真的吧，把mapreduce弄成sql来运行
我只能说好吧，且用且珍惜

2014-04-27 17:30:02

赞同展开评论
李小三

ReODPS大讲堂之概述篇
xilb里的算法不用在自己编写mapreduce？

2014-04-27 16:31:44

赞同展开评论
holdybb

ReODPS大讲堂之概述篇
“哈哈哈哈哈”
。。。笑得太。。。了

2014-04-27 16:30:21

赞同展开评论
小斯never

坐等大神
-------------------------

……

2014-04-27 12:34:12

赞同展开评论
shirehalfish

ReODPS大讲堂之概述篇
坐等

2014-04-27 12:07:09

赞同展开评论
lubor

ReODPS大讲堂之概述篇
前排坐等

2014-04-27 11:48:04

赞同展开评论

滑动查看更多

ODPS大讲堂之概述篇

相关文章

相关解决方案

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ODPS大讲堂之概述篇

相关文章

相关解决方案