如何高效地遍历 MongoDB 超大集合？-低调大师

如何高效地遍历 MongoDB 超大集合？

2019-03-20 632

GitHub 仓库：Fundebug/loop-mongodb-big-collection

本文使用的编程语言是 Node.js，连接 MongoDB 的模块用的是mongoose。但是，本文介绍的方法适用于其他编程语言及其对应的 MongoDB 模块。

错误方法：find()

也许，在遍历 MongoDB 集合时，我们会这样写：

const Promise = require("bluebird");

function findAllMembers() {
    return Member.find();
}

async function test() {
    const members = await findAllMembers();
    let N = 0;
    await Promise.mapSeries(members, member => {
        N++;
        console.log(`name of the ${N}th member: ${member.name}`);
    });
    console.log(`loop all ${N} members success`);
}

test();

注意，我们使用的是 Bluebird 的mapSeries而非map，members 数组中的元素是一个一个处理的。这样就够了吗？

当 Member 集合中的 document 不多时，比如只有 1000 个时，那确实没有问题。但是当 Member 集合中有 1000 万个 document 时，会发生什么呢？如下：

<--- Last few GCs --->
rt of marking 1770 ms) (average mu = 0.168, current mu = 0.025) finalize [5887:0x43127d0]    33672 ms: Mark-sweep 1398.3 (1425.2) -> 1398.0 (1425.7) MB, 1772.0 / 0.0 ms  (+ 0.1 ms in 12 steps since start of marking, biggest step 0.0 ms, walltime since start of marking 1775 ms) (average mu = 0.088, current mu = 0.002) finalize [5887:0x43127d0]    35172 ms: Mark-sweep 1398.5 (1425.7) -> 1398.4 (1428.7) MB, 1496.7 / 0.0 ms  (average mu = 0.049, current mu = 0.002) allocation failure scavenge might not succeed


<--- JS stacktrace --->

FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory
 1: 0x8c02c0 node::Abort() [node]
 2: 0x8c030c  [node]
 3: 0xad15de v8::Utils::ReportOOMFailure(v8::internal::Isolate*, char const*, bool) [node]
 4: 0xad1814 v8::internal::V8::FatalProcessOutOfMemory(v8::internal::Isolate*, char const*, bool) [node]
 5: 0xebe752  [node]
 6: 0xebe858 v8::internal::Heap::CheckIneffectiveMarkCompact(unsigned long, double) [node]
 7: 0xeca982 v8::internal::Heap::PerformGarbageCollection(v8::internal::GarbageCollector, v8::GCCallbackFlags) [node]
 8: 0xecb2b4 v8::internal::Heap::CollectGarbage(v8::internal::AllocationSpace, v8::internal::GarbageCollectionReason, v8::GCCallbackFlags) [node]
 9: 0xecba8a v8::internal::Heap::FinalizeIncrementalMarkingIfComplete(v8::internal::GarbageCollectionReason) [node]
10: 0xecf1b7 v8::internal::IncrementalMarkingJob::Task::RunInternal() [node]
11: 0xbc1796 v8::internal::CancelableTask::Run() [node]
12: 0x935018 node::PerIsolatePlatformData::FlushForegroundTasksInternal() [node]
13: 0x9fccff  [node]
14: 0xa0dbd8  [node]
15: 0x9fd63b uv_run [node]
16: 0x8ca6c5 node::Start(v8::Isolate*, node::IsolateData*, int, char const* const*, int, char const* const*) [node]
17: 0x8c945f node::Start(int, char**) [node]
18: 0x7f84b6263f45 __libc_start_main [/lib/x86_64-linux-gnu/libc.so.6]
19: 0x885c55  [node]
Aborted (core dumped)

可知，内存不足了。

打印find()返回的 members 数组可知，集合中所有元素都返回了，哪个数组放得下 1000 万个 Object?

正确方法：find().cursor()与 eachAsync()

将整个集合 find()全部返回，这种操作应该避免，正确的方法应该是这样的：

function findAllMembersCursor() {
    return Member.find().cursor();
}

async function test() {
    const membersCursor = await findAllMembersCursor();
    let N = 0;
    await membersCursor.eachAsync(member => {
        N++;
        console.log(`name of the ${N}th member: ${member.name}`);
    });
    console.log(`loop all ${N} members success`);
}

test();

使用cursor()方法返回 QueryCursor，然后再使用eachAsync()就可以遍历整个集合了，而且不用担心内存不够。

QueryCursor是什么呢？不妨看一下 mongoose 文档：

A QueryCursor is a concurrency primitive for processing query results one document at a time. A QueryCursor fulfills the Node.js streams3 API, in addition to several other mechanisms for loading documents from MongoDB one at a time.

总之，QueryCursor 可以每次从 MongoDB 中取一个 document，这样显然极大地减少了内存使用。

如何测试？

这篇博客介绍的内容很简单，但是也很容易被忽视。如果大家测试一下，印象会更加深刻一些。

测试代码很简单，大家可以查看Fundebug/loop-mongodb-big-collection。

我的测试环境是这样的：

ubuntu 14.04
mongodb 3.2
nodejs 10.9.0

1. 使用 Docker 运行 MongoDB

sudo docker run --net=host -d --name mongodb daocloud.io/library/mongo:3.2

2. 使用mgodatagen生成测试数据

使用 mgodatagen，1000 万个 document 可以在 1 分多钟生成！

下载 mgodatagen：https://github.com/feliixx/mgodatagen/releases/download/0.7.3/mgodatagen_linux_x86_64.tar.gz

解压之后，复制到/usr/local/bin 目录即可：

sudo mv mgodatagen /usr/local/bin

mgodatagen 的配置文件mgodatagen-config.json如下：

[
    {
        "database": "test",
        "collection": "members",
        "count": 10000000,
        "content": {
            "name": {
                "type": "string",
                "minLength": 2,
                "maxLength": 8
            },
            "city": {
                "type": "string",
                "minLength": 2,
                "maxLength": 8
            },
            "country": {
                "type": "string",
                "minLength": 2,
                "maxLength": 8
            },
            "company": {
                "type": "string",
                "minLength": 2,
                "maxLength": 8
            },
            "email": {
                "type": "string",
                "minLength": 2,
                "maxLength": 8
            }
        }
    }
]

执行mgodatagen -f mgodatagen-config.json命令，即可生成 10000 万测试数据。

mgodatagen -f mgodatagen-config.json
Connecting to mongodb://127.0.0.1:27017
MongoDB server version 3.2.13

collection members: done            [====================================================================] 100%

+------------+----------+-----------------+----------------+
| COLLECTION |  COUNT   | AVG OBJECT SIZE |    INDEXES     |
+------------+----------+-----------------+----------------+
| members    | 10000000 |             108 | _id_  95368 kB |
+------------+----------+-----------------+----------------+

run finished in 1m12.82s

查看 MongoDB，可知新生成的数据有 0.69GB，其实很小，但是使用 find()方法遍历会报错。

show dbs
local  0.000GB
test   0.690GB

3. 执行测试代码

两种不同遍历方法的代码分别位于test1.js和test2.js。

参考

关于Fundebug

Fundebug专注于JavaScript、微信小程序、微信小游戏、支付宝小程序、React Native、Node.js和Java线上应用实时BUG监控。自从2016年双十一正式上线，Fundebug累计处理了10亿+错误事件，付费客户有Google、360、金山软件、百姓网等众多品牌企业。欢迎大家免费试用！

版权声明

转载时请注明作者Fundebug以及本文地址：
https://blog.fundebug.com/2019/03/21/how-to-visit-all-documents-in-a-big-collection-of-mongodb/

微信关注我们

原文链接：https://yq.aliyun.com/articles/694571

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Json反序列化与Java泛型

Java的JSON库有很多，本文分析google的Gson和alibaba的fastjson，在Java泛型场景反序列化的一些有意思的行为。考虑下面的json字符串： [ "2147483648", "2147483647" ] 用fastjson在不指定类型的情况下解析，下面的代码输出啥： JSON.parseArray(s).forEach(o -> { System.out.println(o.getClass()); }); 答案是： class java.lang.Long class java.lang.Integer 是不是感觉有点儿奇怪，两个都是数字啊，居然输出了不同的类型，原因我们下面细讲。再看看Gson，用Gson解析并且不指定泛型类型的话，下面的代码输出啥： new Gson().fromJson(s, List.class).forEach(o -> { System.out.println(o.getClass()); }); 答案是： class java.lang.Double class java.lang.Double 这次两个都是Dou...

2019-03-20

826

译者按: 关于代码风格，不同的人有不同的偏好，其实并没有什么绝对的对错。但是，有 2 条原则应该是对的：少数服从多数；用工具统一风格。原文: Why robots should format our code for us 译者: Fundebug 为了保证可读性，本文采用意译而非直译。另外，本文版权归原作者所有，翻译仅用于学习。我曾经以为，程序员有自己独特的代码风格挺好的。因为，一个成熟的程序员应该清楚，好的代码应该是怎样的。我的大学教授告诉我，他的学生在用我的代码，因为我的代码风格不一样。我想了一下，也许是因为我的代码至少是有风格的，而其他人的代码一团糟。一些示例示例 1：读了The Programmers’ Stone之后，我把大括号这样写： if (food === 'pizza') { alert('Pizza ;-)'); } else { alert('Not pizza ;-('); } 但是，我意识到在前端社区里，也许只有我一个人这样写的。而其他人都是这样写的： if (food === 'pizza') { alert('Pizza ;-)'); } ...

2019-03-20

628

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。