如何遍历数据量亿级别Mongo库
场景介绍 在使用Mongo这种非关系型数据库过程中,往往存储了海量的数据,这些数据的数据结构非常松散,数据类型比较复杂。对于从海量数据中提取或分析数据,需要遍历Mongo库的情况经常出现,这里介绍两种比较有效的方法,均在亿级别的生产库中,多次使用过。 方法一:利用时间戳 在存储的数据中,对时间戳字段,建立索引,如下方数据时间戳字段为update_time { "_id" : "6214627359000222889", "_class" : "com.alibaba.fastjson.JSONObject", "update_time" : ISODate("2018-07-05T14:26:42.018Z"), "idcard" : "342522199406220025", "gender" : "女", "age" : "24", "name" : "曹××" } 这种方法遍历,我们需要一个起点时间,和结束时间,然后按照这个时间段进行扫库,亿级别的数据,不可能全部取出,可每次取出一定数量,比如1K条,排序后根据最后一条的时间戳,与结束时间根据你是逆序遍历,还是顺序遍历进行判断,如...