云计算大会有感—MapReduce和UDF

简介: (转载请注明出处:http://blog.csdn.net/buptgshengod)1.参会有感      首先还是非常感谢CSDN能给我票,让我有机会参加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。        还是得从国家会议中心说起,两年前lz曾经在那当过IDF的志愿者,当时是纯体力劳动,负责给参会人员发一些杂志什么的,当时苦逼的为了多

(转载请注明出处:http://blog.csdn.net/buptgshengod)

1.参会有感

      首先还是非常感谢CSDN能给我票,让我有机会参加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。
        还是得从国家会议中心说起,两年前lz曾经在那当过IDF的志愿者,当时是纯体力劳动,负责给参会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭躲到柜子后面直到开饭。真没想到两年后可以以来宾的身份参加国家会议中心的大会(虽然午餐还是苦逼的盒饭吧),这次真的可以走进主会议场聆听专家们的报告。说实话,一进主会议场看到几千个码农,都是差不多的装扮,真的有点小震撼。
        听了几个院士和运营商老总的报告,最震撼的还是微软副总裁王亚勤先生的演讲,感觉挺震撼的。不得不说微软就是微软(大家可以搜搜这段演讲看一下),他说的有一句话很有意思“从互联网让我们从物理变为虚拟,现在云让我们从虚拟变回物理”(没看懂的可以留言讨论哈)。
        参加这次大会不是为了学一个算法或是什么,应该是从宏观上了解云的发展。李德毅院士说:云就是计算P级数据的能力。确实,随着数据过剩的时代已经到来。数据成了解决问题的基础,算法是解决问题的工具,云就是我们的途径。

2.云就在身边

     下面写下我最近在操作阿里云的一些感受,博主参加了阿里的天猫大数据竞赛,靠着抱大腿战术成功入围S2,阿里给每个进入S2阶段的队伍开设了服务器端的账号。先秀一下,阿里云端的虚拟机界面,(苦逼的xp)

下面一行黑色的就是阿里云odps的命令行工具,在里面可以进行数据库操作,主要是sql语句。我的理解是这个odps就是hadoop的改版,不知道这种说法对不对。
        记得当年,我们寝室的czx问我们几个什么是云,旭哥说了:“我觉得云就是分布式。”

(1)MR        

        分布式就是将大量的数据运算按照一定规则分配到云上的无数个服务器上,并行完成,这样就可以极大地提高运算效率。然而,如何分配,计算完又如何将数据汇总,这就依赖于MapReduce了,这里简称MR。
        MR来源于google的一篇论文,MR分为mapper和reducer,mapper是将数据切割为key,value对的形式,reducer是对每个key的value的逻辑进行计算。driver负责一些传入传出的数据入口。上个图吧,这是我在阿里服务器上的一个MR程序

        写好的MR程序,export成为jar文件,再传到云上,将数据库的table输入就可以实现对应的算法了。

 (2)udf

         udf就是实现云端的sql的function函数。举个例子,比如说有个表,里面的数据是412142=>3522。我们想以中间的箭头符号为分隔,获取412142或是3522.因为sql中是没有类似于splite的函数的。所以我们要写一个sql的function实现这个功能。这个function我们用java写好,只要将生成的jar文件放到云端,就可以调用。

       

          以上是我对于云的一些感受和看法,欢迎大家留言讨论!
目录
相关文章
|
7月前
|
分布式计算 Hadoop 大数据
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep(附源码 )
319 1
|
7月前
|
存储 分布式计算 Hadoop
【云计算与大数据技术】Hadoop MapReduce的讲解(图文解释,超详细必看)
【云计算与大数据技术】Hadoop MapReduce的讲解(图文解释,超详细必看)
335 0
|
7月前
|
存储 分布式计算 大数据
【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )
【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )
410 0
|
存储 编解码 分布式计算
云计算与大数据实验六 MapReduce综合应用
云计算与大数据实验六 MapReduce综合应用
307 0
|
分布式计算 Java Hadoop
云计算与大数据实验五 MapReduce编程
云计算与大数据实验五 MapReduce编程
364 0
|
分布式计算 自然语言处理 Hadoop
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
150 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
|
存储 分布式计算 资源调度
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
198 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
|
7月前
|
分布式计算 Hadoop
Hadoop系列 mapreduce 原理分析
Hadoop系列 mapreduce 原理分析
84 1
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
101 3
|
6月前
|
分布式计算 Hadoop Java
Hadoop MapReduce编程
该教程指导编写Hadoop MapReduce程序处理天气数据。任务包括计算每个城市ID的最高、最低气温、气温出现次数和平均气温。在读取数据时需忽略表头,且数据应为整数。教程中提供了环境变量设置、Java编译、jar包创建及MapReduce执行的步骤说明,但假设读者已具备基础操作技能。此外,还提到一个扩展练习,通过分区功能将具有相同尾数的数字分组到不同文件。
65 1