精通MongoDB聚合操作API:深入探索高级技巧与实践

在这里插入图片描述

MongoDB 聚合操作API提供了强大的数据处理能力,能够对数据进行筛选、变换、分组、统计等复杂操作。本文介绍了MongoDB的基本用法和高级用法,高级用法涵盖了setWindowFields、merge、facet、expr、accumulator窗口函数、结果合并、多面聚合、查询表达式在聚合中的使用以及自定义聚合操作,基本用法涵盖了match、project、group、sort、limit、skip、unwind、lookup、graphLookup、sample、bucket等。

一、基本用法:

1. $match:筛选文档

作用:根据指定的查询条件过滤输入文档。

语法

{ $match: { <query> } }

示例:筛选年龄大于等于30的用户文档:

db.users.aggregate([
  { $match: { age: { $gte: 30 } } }
]);

2. $project:重塑文档

作用:指定输出文档的字段及内容,可以包括添加新字段、重命名字段、删除字段、计算表达式等。

语法

{ $project: { <field1>: <1 or 0>, <field2>: <1 or 0>, ... } }

示例:只输出用户姓名和年龄,不包含其他字段:

db.users.aggregate([
  { $project: { name: 1, age: 1, _id: 0 } } // _id: 0 表示不包含_id字段
]);

3. $group:分组并计算

作用:根据指定的键(通常是一个字段)对文档进行分组,并对每个组应用聚合函数(如计数、求和、平均值等)。

语法

{ $group: { _id: <expression>, <field1>: { <accumulator1>: <expression1> }, ... } }

示例:按年龄分组,统计每个年龄段的用户数量:

db.users.aggregate([
  { $group: { _id: "$age", count: { $sum: 1 } } }
]);

4. $sort:排序文档

作用:对输入文档进行排序。

语法

{ $sort: { <field1>: <1 or -1>, <field2>: <1 or -1>, ... } }

示例:按年龄降序排序用户:

db.users.aggregate([
  { $sort: { age: -1 } }
]);

5. $limit:限制输出文档数量

作用:限制输出结果集的最大文档数。

语法

{ $limit: <number> }

示例:只返回前5个用户:

db.users.aggregate([
  { $limit: 5 }
]);

6. $skip:跳过指定数量的文档

作用:跳过指定数量的文档,返回剩余文档。

语法

{ $skip: <number> }

示例:跳过前10个用户,返回剩下的用户:

db.users.aggregate([
  { $skip: 10 }
]);

7. $unwind:展开数组字段

作用:将文档中某个数组字段的每个元素拆分为独立文档。

语法

{ $unwind: "<field>" }

示例:假设每个用户有多项技能,将技能数组拆分为独立文档:

db.users.aggregate([
  { $unwind: "$skills" }
]);

8. $lookup:联接其他集合

作用:执行类似于关系型数据库的左外部联接操作,将来自不同集合的数据合并到一个结果集中。

语法

{ $lookup: {
  from: "<collection to join>",
  localField: "<field from the input documents>",
  foreignField: "<field from the documents of the 'from' collection>",
  as: "<output array field>"
} }

示例:假设有一个 orders 集合,联接用户和他们的订单:

db.users.aggregate([
  { $lookup: {
    from: "orders",
    localField: "_id",
    foreignField: "userId",
    as: "orders"
  } }
]);

9. $graphLookup:深度查询关联文档

作用:在集合中递归地查询与当前文档相关的文档,构建层次结构或图状结构。

语法

{ $graphLookup: {
  from: "<collection to search>",
  startWith: "<expression>",
  connectFromField: "<field in the 'from' collection>",
  connectToField: "<field in the input documents>",
  as: "<output array field>",
  maxDepth: <number>,
  depthField: "<output field>",
  restrictSearchWithMatch: { <query> }
} }

示例:假设有一个 departments 集合,每个部门可能有上级部门,构建部门间的层级关系:

db.departments.aggregate([
  { $graphLookup: {
    from: "departments",
    startWith: "$parentDepartmentId",
    connectFromField: "parentDepartmentId",
    connectToField: "_id",
    as: "ancestors",
    maxDepth: 10,
    depthField: "level"
  } }
]);

10. $sample:随机采样文档

作用:从输入文档中随机选取指定数量的文档。

语法

{ $sample: { size: <number> } }

示例:随机选取10个用户:

db.users.aggregate([
  { $sample: { size: 10 } }
]);

11. $bucket:桶式分组

作用:根据指定的范围边界将数据划分为桶(区间),并对每个桶进行统计或聚合操作。

语法

{ $bucket: {
  groupBy: "<expression>",
  boundaries: [ <value1>, <value2>, ... ],
  default: <output document>,
  output: {
    <field1>: { <accumulator1>: <expression1> },
    <field2>: { <accumulator2>: <expression2> },
    ...
  }
} }

示例:将用户年龄分为几个区间,并统计每个区间的用户数量:

db.users.aggregate([
  { $bucket: {
    groupBy: "$age",
    boundaries: [ 18, 25, 30, 40, 50 ],
    default: "other",
    output: { count: { $sum: 1 } }
  } }
]);

12. $bucketAuto:自动桶式分组

作用:根据数据分布自动划分桶(区间),并进行统计或聚合操作。

语法

{ $bucketAuto: {
  groupBy: "<expression>",
  buckets: <number>,
  granularity: "<string>",
  output: {
    <field1>: { <accumulator1>: <expression1> },
    <field2>: { <accumulator2>: <expression2> },
    ...
  }
} }

示例:自动将用户年龄分为若干区间,并统计每个区间的用户数量:

db.users.aggregate([
  { $bucketAuto: {
    groupBy: "$age",
    buckets: 5,
    output: { count: { $sum: 1 } }
  } }
]);

以上就是MongoDB聚合操作API的全面解析以及示例,涵盖了主要的聚合阶段。实际使用时,可以根据具体需求组合这些阶段,构建复杂的数据分析管道。注意,聚合管道的执行顺序是从左到右,先执行 $match 这样的筛选阶段通常可以提高性能。

MongoDB 聚合框架除了提供基本的聚合操作外,还支持一些高级操作,用于处理更复杂的数据分析场景。以下是对这些高级聚合操作API的全面解析以及示例:

二、高级用法:

1. $setWindowFields:窗口函数

作用:在一组相邻文档(称为窗口)上执行计算,每个文档的结果依赖于窗口内的其他文档。支持多种窗口函数,如排名、累加、移动平均、分组统计等。

语法

{ $setWindowFields: {
  partitionBy: <expression>,
  sortBy: { <field1>: <1 or -1>, <field2>: <1 or -1>, ... },
  output: {
    <field1>: { <windowFunction1>: { ... } },
    <field2>: { <windowFunction2>: { ... } },
    ...
  }
} }

示例:计算每个用户的连续订单编号、订单总金额及订单数量:

db.orders.aggregate([
  { $setWindowFields: {
    partitionBy: "$userId",
    sortBy: { orderDate: 1 },
    output: {
      consecutiveOrderNumber: { $denseRank: {} },
      cumulativeTotalAmount: { $sum: "$amount", window: { documents: ["unbounded", "current"] } },
      orderCountInLast3Days: {
        $count: {},
        window: { range: [-3, "current"], unit: "day", timezone: "America/New_York" }
      }
    }
  } }
]);

2. $merge:合并结果到集合

作用:将聚合管道的结果合并到另一个集合中,支持插入、更新、替换等多种合并策略。

语法

{ $merge: {
  into: "<collection>",
  on: <field or array of fields>,
  whenMatched: "<mergeMode>",
  whenNotMatched: "<mergeMode>",
  let: { <var1>: <expression1>, <var2>: <expression2>, ... },
  pipeline: [ <stage1>, <stage2>, ... ]
} }

示例:将按年龄分组统计的用户数量结果合并到 userCounts 集合中,存在则更新,不存在则插入:

db.users.aggregate([
  { $group: { _id: "$age", count: { $sum: 1 } } },
  { $merge: {
    into: "userCounts",
    on: "_id",
    whenMatched: "replace",
    whenNotMatched: "insert"
  } }
]);

3. $facet:多面聚合

作用:在一个阶段内执行多个聚合管道,每个管道可以有不同的阶段和输出字段,最终结果将所有子聚合的输出合并到一个文档中。

语法

{ $facet: {
  <outputField1>: [ <stage1>, <stage2>, ... ],
  <outputField2>: [ <stage3>, <stage4>, ... ],
  ...
} }

示例:同时计算年龄大于等于30和小于30的用户数量:

db.users.aggregate([
  { $facet: {
    "over30": [
      { $match: { age: { $gte: 30 } } },
      { $count: "count" }
    ],
    "under30": [
      { $match: { age: { $lt: 30 } } },
      { $count: "count" }
    ]
  } }
]);

4. $expr:在聚合表达式中使用查询运算符

作用:在聚合操作(如 $match$project$redact 等)中使用查询表达式,允许在聚合管道中使用查询操作符。

语法

{ $match: { $expr: { <query operator expression> } } }

示例:查找年龄比其所在部门平均年龄大的用户:

db.users.aggregate([
  {
    $lookup: {
      from: "departments",
      localField: "departmentId",
      foreignField: "_id",
      as: "department"
    }
  },
  {
    $unwind: "$department"
  },
  {
    $match: {
      $expr: {
        $gt: ["$age", { $avg: "$department.ages" }]
      }
    }
  }
]);

5. $accumulator:自定义聚合操作

作用:允许定义自己的聚合操作(自定义累加器),用于在 $group 阶段执行特定的计算。

语法

db.createAggregateAccumulator(
  "<accumulatorName>",
  "<javascriptCode>",
  { finalize: "<javascriptCode>", lang: "<language>" }
)

// 在聚合管道中使用自定义累加器
{ $group: { _id: "$category", customValue: { $accumulator: "<accumulatorName>" } } }

示例:创建一个自定义累加器,计算文档数组中每个元素的平方和:

db.createAggregateAccumulator(
  "squareSum",
  "function(values) { return values.reduce((acc, val) => acc + Math.pow(val, 2), 0); }",
  { lang: "js" }
)

// 在聚合管道中使用自定义累加器
db.items.aggregate([
  { $group: { _id: "$category", squareSum: { $accumulator: "squareSum", initialValue: [], accumulateArgs: ["$itemValues"] } } }
]);

以上就是MongoDB聚合高级操作API的全面解析以及示例,涵盖了窗口函数、结果合并、多面聚合、查询表达式在聚合中的使用以及自定义聚合操作。这些高级操作极大地扩展了聚合框架的功能,使其能够应对更复杂的数据分析需求。在实际使用时,应根据具体业务场景灵活运用这些高级操作,构建高效、精确的聚合管道。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/559536.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot | Spring Boot 应用的 “打包” 和 “部署”

目录: Spring Boot 应用的 “打包” 和 “部署” :一、Jar包方式打包部署 ( SpringBoot默认以 "Jar包" 形式进行 “打包部署” ) :1.1 "Jar包" 方式 “打包” :① 添加Maven “打包插件”② 使用IDEA开发工具进行 "打包" 1.2 "Jar包" …

构建Python中的分布式日志系统:ELK与Fluentd的结合

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在现代软件开发中&#xff0c;日志系统是至关重要的组成部分。它们不仅用于故障排查和性能监…

户外运动用什么耳机?五款主流运动耳机推荐!

城市的喧嚣和繁忙&#xff0c;常常让我们渴望逃离&#xff0c;去寻找一片属于自己的宁静天地。大自然&#xff0c;便是那个能够抚慰我们心灵、让我们重新找回宁静与美好的地方。对于热爱自然、钟情户外的你&#xff0c;一款合适的运动耳机&#xff0c;无疑是探索自然、享受运动…

贪吃蛇游戏源码(VS编译环境)

贪吃蛇游戏源码&#xff08;VS编译环境&#xff09; &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;C语言&#x1f353; &#x1f33c;文章目录&#x1f33c; 1. Snake.h 头文件 2. Snake.c 源文件 3. Test.c 头文件 1. Snake.h 头…

只需几步,即可享有笔记小程序

本示例是一个简单的外卖查看店铺点菜的外卖微信小程序&#xff0c;小程序后端服务使用了MemFire Cloud&#xff0c;其中使用到的MemFire Cloud功能包括&#xff1a; 其中使用到的MemFire Cloud功能包括&#xff1a; 云数据库&#xff1a;存储外卖微信小程序所有数据表的信息。…

二进制OpenStack

二进制搭建OpenStack 1.环境准备 1.1机器的准备 主机名服务器配置操作系统IP地址controller-node4C8Gcentos7.9172.17.1.117computer-node4C8Gcentos7.9172.17.1.118 1.2网络架构 [rootcotroller-node ~]# ip a 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noque…

dy号转uid和sec_uid

如何将抖dy号转换为uid和sec_uid&#xff1f; 摘要&#xff1a;本文将介绍如何实dy号与uid、sec_uid之间的转换过程&#xff0c;并提供相关的代码示例。 正文&#xff1a; dy作为一款热门的短视频社交平台&#xff0c;每个用户都有着唯一的用户ID&#xff08;uid&#xff09…

VisualGLM-6B的部署步骤

对于如下命令&#xff0c;你将完全删除环境和环境中的所有软件包 conda remove -n env_name --all 一、VisualGLM-6B环境安装 1、硬件配置 操作系统&#xff1a;Ubuntu_64&#xff08;ubuntu22.04.3&#xff09; GPU&#xff1a;4050 显存&#xff1a;16G 2、配置环境 建…

如何在Windows 11上退出安全模式?这里提供详细步骤

序言 安全模式是对电脑进行故障排除的强大工具。通过仅使用关键和必要的软件和服务启动电脑,它可以帮助你确定后台进程是否干扰了你的正常日常使用,或者是否有任何第三方软件导致电脑出现问题并使其难以使用。 如果你想退出安全模式,最简单的方法是重新启动你的电脑。只要…

Spring Boot入门(17):秒懂Spring Boot整合Knife4j,让你的Swagger界面秒变高颜值

前言 在使用Swagger进行API文档编写时&#xff0c;我们不可避免的会遇到Swagger的一些瓶颈。例如&#xff0c;Swagger的UI界面不太友好&#xff0c;样式单调且难看&#xff0c;交互体验也不是很好。为了解决这些问题&#xff0c;我们可以使用Knife4j对Spring Boot进行整合&…

C++笔记:类和对象(一)

类和对象 认识类和对象 先来回忆一下C语言中的类型和变量&#xff0c;类型就像是定义了数据的规则&#xff0c;而变量则是根据这些规则来实际存储数据的容器。类是我们自己定义的一种数据类型&#xff0c;而对象则是这种数据类型的一个具体实例。类就可以理解为类型&#xff0c…

ViM-UNet:用于生物医学细分的 Vision Mamba

ViM-UNet&#xff1a;用于生物医学细分的 Vision Mamba 摘要IntroductionMethod and Experiments结果与讨论 ViM-UNet: Vision Mamba for Biomedical Segmentation 摘要 卷积神经网络&#xff08;CNNs&#xff09;&#xff0c;尤其是UNet&#xff0c;是生物医学分割的默认架构…

易点易动固定资产管理系统驱动企业高效运营

对于企业来说,固定资产管理一直是一项关键的业务环节。无论是制造企业的生产设备,还是服务企业的办公设备,这些固定资产都是企业运营的基础和支撑。良好的固定资产管理不仅能确保企业的生产经营持续稳定,还能为企业创造更大的价值。 然而,在实际操作中,企业在固定资产管理方面却…

C/C++易错知识点(4):static修饰变量和函数

static是C/C中一个非常容易混淆的语法&#xff0c;在不同的地方针对不同的对象有不同的效果。 它在大型项目中有至关重要的作用&#xff0c;需要我们详细研究。 1.变量 所有static修饰的变量的生命周期都是自调用它起到程序结束&#xff0c;期间这些变量都只会初始化一次 ①…

MT41K128M16JT-125 k功能和参数及ECC功能启用和配置

MT41K128M16JT-125 k功能和参数介绍-公司新闻-配芯易-深圳市亚泰盈科电子有限公司 MT41K128M16JT-125 K 是一款 128Mb&#xff08;16M x 8 位&#xff09;的 DDR3 SDRAM&#xff08;Double Data Rate Third Generation Synchronous Dynamic Random Access Memory&#xff09;芯…

MDC搭配ttl

1.MDC 1.简介 MDC 介绍​ MDC&#xff08;Mapped Diagnostic Context&#xff0c;映射调试上下文&#xff09;是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能。MDC 可以看成是一个与当前线程绑定的Map&#xff0c;可以往其中添加键值对。MDC 中包含的内容可…

kaggle电子邮件分类xgboost建模可视化模型评估混淆矩阵范例

目录 概述 依赖环境 代码解读 库的导入 数据读取 扇形图可视化统计 词云图可视化 分布条形图可视化 数据预处理 划分数据集 模型训练 模型预测和评估 ROC曲线评估 混淆矩阵评估 多维度交叉评估 配套源码和数据集 xgboost邮件分类配套数据集和源码下载地址 概述…

适用于Windows的最佳数据恢复软件合集(免费和付费)

任何数据恢复尝试的结果都取决于您使用的文件恢复软件。作为 Windows 用户&#xff0c;您可以从许多不同的免费和付费应用程序中进行选择&#xff0c;以至于很容易遇到决策瘫痪并浪费宝贵的时间&#xff0c;而这些时间本来可以更好地用于恢复数据。 为了帮助您做出正确的选择&…

手机app抓包流程(fiddler)

废话不多说直接开始&#xff1a; 1.先下载fiddler&#xff0c;一款抓包软件&#xff08;下载地址后续补充&#xff0c;或自行查找&#xff09;&#xff1a; 2.同意并安装 3.安装好后启动&#xff0c;找到options进行配置&#xff1a; 4.https部分勾选至下图效果&#xff1a; 5…

百度AI大会发布的APP Builder和Agent Builder有什么区别

百度在AI大会发布了三款AI工具&#xff0c;包括智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder 有很多人就问&#xff0c;APP Builder和Agent Builder有什么不一样&#xff0c;怎么那么多builder? 你们就这么理解&#xff…