MongoDB MapReduce

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介:

MapReduce应该算是MongoDB操作中比较复杂的了,自己开始理解的时候还是动了动脑子的,所以记录在此!

命令语法:详细看

db.runCommand(
  { mapreduce : 字符串,集合名,
    map : 函数,见下文
    reduce : 函数,见下文
    [, query : 文档,发往map函数前先给过渡文档]
    [, sort : 文档,发往map函数前先给文档排序]
    [, limit : 整数,发往map函数的文档数量上限]
    [, out : 字符串,统计结果保存的集合]
    [, keeptemp: 布尔值,链接关闭时临时结果集合是否保存]
    [, finalize : 函数,将reduce的结果送给这个函数,做最后的处理]
    [, scope : 文档,js代码中要用到的变量]
    [, jsMode : 布尔值,是否减少执行过程中BSON和JS的转换,默认 true ] //注:false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,<br>                                    //true时BSON-->js-->map-->reduce-->BSON
    [, verbose : 布尔值,是否产生更加详细的服务器日志,默认 true ]
  }
);

测试数据:

现在我要统计同一age的name,也就是像如下的结果:

{age:0,names:["name_6","name_12","name_18"]}
{age:1,names:["name_1","name_7","name_13","name_19"]}
......

第一步是写映射(Map)函数,可以简单的理解成分组吧~

 m=(){
    emit(.age,.name);
}

emit的第一个参数是key,就是分组的依据,这是自然是age了,后一个是value,可以是要统计的数据,下面会说明,value可以是JSON对象。
这样m就会把送过来的数据根据key分组了,可以想象成如下结构:

第一组
{key:0,values: ["name_6","name_12","name_18"]

第二组
{key:1,values: ["name_1","name_7","name_13","name_19"]
......

组中的key其实就是age的值了,values是个数组,数组内的成员都有相同的age!!。

第二步就是简化了,编写reduce函数:

 r=(key,values){
     ret={age:key,names:values};
     ret;
}

reduce函数会处理每一个分组,参数也正好是我们想像分组里的key和values。

这里reduce函数只是简单的把key和values包装了一下,因为不用怎么处理就是我们想要的结果了,然后返回一个对象。对象结构正好和我们想象的相符!:

{age:对应的age,names:[名字1,名字2..]}

最后,还可以编写finalize函数对reduce的返回值做最后处理:

 f=(key,rval){
    (key==0){
        rval.msg="a new life,baby!";
    }
     rval
}

这里的key还是上面的key,也就是还是age,rval是reduce的返回值,所以rval的一个实例如:{age:0,names:["name_6","name_12","name_18"]},

这里判断 key 是不是 0 ,如果是而在 rval 对象上加 msg 属性,显然也可以判断 rval.age==0,因为 key 和 rval.age 是相等的嘛!!

这里其他的选项就不说了,一看就知道。

运行:

db.runCommand({
    mapreduce:"t",
    map:m,
    reduce:r,
    finalize:f,
    out:"t_age_names"
    }
)

结果导入到 t_age_names 集合中,查询出来正是我想要的结果,看一下文档的结构,不难发现,_id 就是 key,value 就是处理后的返回值。


转自 http://www.cnblogs.com/loogn/archive/2012/02/09/2344054.html





      本文转自布拉君君 51CTO博客,原文链接:http://blog.51cto.com/5148737/1638024,如需转载请自行联系原作者





相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
2月前
|
存储 分布式计算 NoSQL
MongoDB Map Reduce
10月更文挑战第23天
34 1
|
分布式计算 NoSQL JavaScript
初识Mongodb之MapReduce操作篇
初识Mongodb之MapReduce操作篇
410 0
初识Mongodb之MapReduce操作篇
|
分布式计算 NoSQL Hadoop