【mongo 系列】mongodb 学习四,聚合知识点梳理

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 数据聚合(Data Aggregation)是指合并来自不同数据源的数据。.聚类也称聚类分析,亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。

【mongo 系列】mongodb 学习四,聚合知识点梳理

什么是聚合数据?

我们先来看看是是聚合数据

数据聚合(Data Aggregation)是指合并来自不同数据源的数据。.

聚类也称聚类分析,亦称为群集分析,是对于统计数据分析的一门技术,

在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。

什么是聚合查询?

聚合操作处理数据是记录并返回计算结果的

局和操作组的值来自多个文档,可以对分组数据执行各种操作以范围单个结果

聚合操作一般包含下面三类:

  • 单一作用聚合
  • 聚合管道
  • MapReduce

docs.mongodb.com/manual/aggr…

image.png

单一作用聚合

mongodb 自身提供如下几个单一作用的聚合函数,这些单一的聚合函数,相对聚合管道和mapReduce 来说不够灵活,也缺乏丰富的功能

  • db.集合名字.estimatedDocumentCount()

粗略的计算文档的个数,是一个估计值

  • db.集合名字.count()

计算文档的数量,是通过聚合来计算的

  • db.集合名字.distinct()

查看某一个字段都有哪些值

例如:

> db.users.find()
{ "_id" : ObjectId("61584aeeee74dfe04dac57e9"), "name" : "xiaokeai", "age" : 25, "hobby" : "reading", "infos" : { "tall" : 175, "height" : 62 }, "school" : "cs" }
{ "_id" : ObjectId("615a56d6bc6afecd2cff8f96"), "name" : "xiaozhu", "age" : 15, "hobby" : "basketball", "infos" : { "tall" : 190, "height" : 70 }, "school" : "sh" }
{ "_id" : ObjectId("615a5856d988690b07c69f64"), "name" : "xiaopang" }
{ "_id" : ObjectId("615a5917d988690b07c69f66"), "name" : "nancy", "age" : 25, "hobby" : "study", "infos" : { "tall" : 175, "height" : 60 }, "school" : "hn" }
{ "_id" : ObjectId("615a5917d988690b07c69f67"), "name" : "job", "age" : 19, "hobby" : "basketball", "infos" : { "tall" : 170, "height" : 70 }, "school" : "nj" }
> db.users.distinct("age")
[ 15, 19, 25 ]


上述例子,使用 db.users.distinct("age") 查看 age 字段存在的 value 有哪些

聚合管道

docs.mongodb.com/manual/core…

聚合管道包含多个阶段,每个阶段在文件通过管道时进行转换,这里的管道,我们可以理解成 linux 里面的管道,下一个指令的输入是上一个指令的输出

db.集合名.aggregate(,)

  • pipelines

一组数据聚合阶段,除了 $out$Merge$geonear 在管道中只可以出现 1 次,其他的操作符每个阶段都可以在管道中出现多次

  • options

可选,聚合操作的其他参数

这里面包含了 查询计划,是否使用临时文件,游标,最大操作时间,读写策略,强制索引 等等

常用的管道聚合阶段

梳理一下常用的管道聚合阶段如下

阶段关键字 描述
$match 筛选条件
$group 分组
$project 显示字段
$lookup 多表关联
$unwind 展开数组
$out 结果汇入新表
$count $文档计数
$sort$skip$limit 排序和分页

其他的阶段我们查看官网 docs.mongodb.com/manual/refe…

image.png

例如 $count 的例子

image.png

第一个 $group 就用于筛选数据,聚合管道中,此处的输出是下一个管道的输入,下一个管道是 $project 选择显示的字段

MapReduce

docs.mongodb.com/manual/core…

MapReduce 操作将大量的数据处理工作拆分成多个线程并行的处理,然后将结果合并在一起

MapReduce 具有如下 2 个阶段:

  • 将具有相同 key 的文档数据整合在一起的 map 阶段
  • 组合 map  操作的结果进行统计输出的 reduce 阶段

可以看一个官网的例子

image.png

emit 将 cust_id 和 amount 做成 map 映射,筛选条件是 status:"A",最后把结果放到一张新的集合中,命名为 order_totals

MapReduce 操作语法如下:

do.集合名.mapReduce(<map>,<reduce>,
{
  out:<collection>,query:<document>,
  sort:<document>,limit:<number>,
  finalize:<function>mscope:<document>,
  jsMode:<boolean>,verbose:<boolean>,
  bypassDocumentValidation:<boolean>
}
)
  • map

将数据拆分成键值对,交给 reduce 函数

  • reduce

根据键将值进行统计运算

  • out

可选,将结果汇入到指定表格中

  • query

可选参数,筛选数据的条件,结果是送入 map

  • sort

排序完成后,送入 map

  • limit

限制送入 map 的文档数

  • finalize

可选,修改 reduce 的结果后进行输出

  • scope

可选,指定 map ,reduce ,finalize 的全局变量

  • jsMode

可选,默认是 false, 在 mapreduce 的过程中是否将数据转换成 bson 格式

  • verbose

可选参数,是否在结果中显示时间,默认是 false 的

  • bypassDocumentValidation

可选参数,师傅略过数据校验的流程

聚合管道和 MapReduce 的对比

比较项 聚合管道 MapReduce
目的 用于提高聚合任务的性能和可用性 用于处理大数据集,数据巨大的时候,是用哪个 MapReduce 会更方便
特征 可以根据需要重复管道运算符,管道操作不必为每个输入文档都生成一个输出文档 除分组操作外,还可执行复杂的聚合任务以及对不断增长的数据集执行增量聚合
灵活性 限于聚合管道支持的运算符和表达式 自定义 map , reduce 以及 finalize javascript 函数提供了灵活性以及聚合逻辑
输出结果 返回结果作为游标,如果管道包括一个 $out 或者 多个 $merge 阶段,则光标为空 以各种选项 内联,新收集,合并,替换,缩小,返回结果
分片 支持非分片和分片输入集合 支持非分片和分片输入集合

再详细的对比,可以查看官网 docs.mongodb.com/manual/refe…

image.png


欢迎点赞,关注,收藏

朋友们,你的支持和鼓励,是我坚持分享,提高质量的动力

image.png

好了,本次就到这里

技术是开放的,我们的心态,更应是开放的。拥抱变化,向阳而生,努力向前行。

我是阿兵云原生,欢迎点赞关注收藏,下次见~

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
26天前
|
SQL NoSQL Unix
MongoDB 聚合
10月更文挑战第17天
19 4
|
2月前
|
SQL NoSQL Unix
MongoDB聚合操作总结
这篇文章总结了MongoDB中聚合操作的作用、方法、常见聚合表达式以及聚合管道的概念和常用操作符,以及SQL与MongoDB聚合操作的对应关系。
41 2
MongoDB聚合操作总结
|
26天前
|
SQL NoSQL 数据处理
深入探索MongoDB的聚合操作
【10月更文挑战第13天】
11 0
|
2月前
|
NoSQL MongoDB 数据库
python3操作MongoDB的crud以及聚合案例,代码可直接运行(python经典编程案例)
这篇文章提供了使用Python操作MongoDB数据库进行CRUD(创建、读取、更新、删除)操作的详细代码示例,以及如何执行聚合查询的案例。
33 6
|
2月前
|
SQL NoSQL JavaScript
04 MongoDB各种查询操作 以及聚合操作总结
文章全面总结了MongoDB中的查询操作及聚合操作,包括基本查询、条件筛选、排序以及聚合管道的使用方法和实例。
75 0
|
3月前
|
持续交付 jenkins Devops
WPF与DevOps的完美邂逅:从Jenkins配置到自动化部署,全流程解析持续集成与持续交付的最佳实践
【8月更文挑战第31天】WPF与DevOps的结合开启了软件生命周期管理的新篇章。通过Jenkins等CI/CD工具,实现从代码提交到自动构建、测试及部署的全流程自动化。本文详细介绍了如何配置Jenkins来管理WPF项目的构建任务,确保每次代码提交都能触发自动化流程,提升开发效率和代码质量。这一方法不仅简化了开发流程,还加强了团队协作,是WPF开发者拥抱DevOps文化的理想指南。
82 1
|
3月前
|
NoSQL BI 数据处理
【超实用攻略】MongoDB 聚合框架:从入门到精通,带你解锁数据处理新姿势!
【8月更文挑战第24天】MongoDB是一款以其灵活性和高性能闻名的NoSQL数据库。其强大的聚合框架采用管道式处理,允许用户定义多个数据处理阶段如过滤、分组等。本文通过示例数据库`orders`和`products`,演示如何利用聚合框架计算各产品的总销售额。示例代码展示了使用`$lookup`连接两集合、`$unwind`打平数组及`$group`按产品ID分组并计算总销售额的过程。这突显了聚合框架处理复杂查询的强大能力,是进行数据分析和报表生成的理想选择。
51 3
|
3月前
|
存储 NoSQL JavaScript
MongoDB存储过程实战:聚合框架、脚本、最佳实践,一文全掌握!
【8月更文挑战第24天】MongoDB是一款备受欢迎的文档型NoSQL数据库,以灵活的数据模型和强大功能著称。尽管其存储过程支持不如传统关系型数据库,本文深入探讨了MongoDB在此方面的最佳实践。包括利用聚合框架处理复杂业务逻辑、封装业务逻辑提高复用性、运用JavaScript脚本实现类似存储过程的功能以及考虑集成其他工具提升数据处理能力。通过示例代码展示如何创建订单处理集合并定义验证规则,虽未直接实现存储过程,但有效地演示了如何借助JavaScript脚本处理业务逻辑,为开发者提供更多实用指导。
68 2
|
3月前
|
持续交付 jenkins C#
“WPF与DevOps深度融合:从Jenkins配置到自动化部署全流程解析,助你实现持续集成与持续交付的无缝衔接”
【8月更文挑战第31天】本文详细介绍如何在Windows Presentation Foundation(WPF)项目中应用DevOps实践,实现自动化部署与持续集成。通过具体代码示例和步骤指导,介绍选择Jenkins作为CI/CD工具,结合Git进行源码管理,配置构建任务、触发器、环境、构建步骤、测试及部署等环节,显著提升开发效率和代码质量。
76 0
|
3月前
|
测试技术 C# 开发者
“代码守护者:详解WPF开发中的单元测试策略与实践——从选择测试框架到编写模拟对象,全方位保障你的应用程序质量”
【8月更文挑战第31天】单元测试是确保软件质量的关键实践,尤其在复杂的WPF应用中更为重要。通过为每个小模块编写独立测试用例,可以验证代码的功能正确性并在早期发现错误。本文将介绍如何在WPF项目中引入单元测试,并通过具体示例演示其实施过程。首先选择合适的测试框架如NUnit或xUnit.net,并利用Moq模拟框架隔离外部依赖。接着,通过一个简单的WPF应用程序示例,展示如何模拟`IUserRepository`接口并验证`MainViewModel`加载用户数据的正确性。这有助于确保代码质量和未来的重构与扩展。
79 0