20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap
[ 用大白话讲解复杂的技术 ]
有一道流传广泛的面试题:
给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序?
让我们先算算 20 亿个整数会占用多大的内存空间,Java 的 int 类型占用 4 个字节,那么 20 亿 * 4 再换算成 G 大约是 7.5G,大于题目中 4G 内存的限制,无法一次性地放到内存中;
这时候有些伙伴会说:“把数据放到磁盘上,然后分批将数据读取到内存中就行查询”,但是这种方法会导致多次磁盘 IO,而且只能解决第一个查找的问题,排序就没有办法做到了。
BitMap 的概念
BitMap 能够很好地解决这个问题;它是用一个 Bit 位来标记某个元素对应的 Value, 而 Key 即是该元素,比如我们初始化一个类型为 bit、长度为 8 的数组,数组下标 0-7,数组中的内容 1 表示存在,0 表示不存在,那么:
00000001 下标为 0 的位置,对应值是1,那么表示 0;同理:
00000010 表示 1;
00000100 表示 2;
00001000 表示 3;
...
10000000 表示 7;
如果一组数据 {2,3,4,7} 放到同一个数组中的话,就是 10011100:
如果按照 int 数组存储,{2,3,4,7} 需要 4 * 4 * 8 个 bit 才能存储的数据,但是现在 BitMap 只需要 8 个 bit 就可以存储,很大地节省了存储空间,并且排重后的排序也变的非常简单了;如果用 byte 实现的话,只需要 1 个 byte 就可以(1 byte = 8 bits)。
如果增加了一个数字 10 呢,那么 1 个 byte 就不够了:
数据结构及初始化
我们可以得知,BitMap 的容量大小取决于最大的那个数值,比如要存储 {2,3,4,7,10}:
如果用 bit 数组实现(假如有的话),那么需要 10 + 1 个长度;
如果是用 byte 数组实现,那么需要 10/8 + 1 个长度;
如果是用 int 数组实现,那么就需要 10/32 + 1 个长度(1 个 int 等于 4 个 bytes,等于 32 个 bits);
明白了这点之后,一个简单的 BitMap 数据结构也就可以确定了:
public class BitMap {
//数据
private byte[] bits;
//最大值
private int max_value;
//容量
private int capacity;
/**
* 初始化
* @param capacity
*/
public BitMap(int max_value){
this.max_value = max_value;
//1bit存储8个数据,存储最大值为 max_value 的数组需要 max_value/8+1 个 byte,除以8就是右移3位
this.capacity = (max_value >> 3 ) + 1;
bits = new byte[capacity];
}
}
添加数据
添加数据,需要快速地定位到这个元素要存到整个数组中的哪个位置,这里有两个概念:
索引号 index:数据保存在整个数组的哪个下标中;
位置号 position:数据在这个下标元素的哪个位置;
比如 10 保存在 index = 1,position = 2(从 0 开始) 这个位置中,经推算可得:
index = N / 8
position = N % 8
知道了 10 保存的位置之后,怎么把对应位置的数据更改成 1 呢?可以用“位或”运算。将 10 添加到 BitMap 中的完整步骤如下:
计算 index = 10/8 = 1 ;
计算 position = 10%8 = 2 ;
将 byte[1] 的数据与 0000100 做“位或”运算,其中 0000100 是通过对 1 左移 2 得到。
完整的代码如下:
public void add(int num){
//数据保存在整个数组的哪个下标中
int index = num / 8;
//数据在这个下标元素的哪个位置
int position = num % 8;
bits[index] |= 1<<position;
}
判断数字是否存在
知道了如何判断数字的索引号和位置号之后,判断数字是否存在也就容易了,直接使用“位与”运算,代码如下:
public boolean contains(int num){
if(num > max_value){
return false;
}
//数据保存在整个数组的哪个下标中
int index = num / 8;
//数据在这个下标元素的哪个位置
int position = num % 8;
return (bits[index] & 1<<position) != 0;
}
测试
让我们做一下测试吧:
public class BitMapTest {
public static void main(String[] agrs){
BitMap bm = new BitMap(100);
bm.add(1);
bm.add(12);
bm.add(14);
bm.add(51);
bm.add(71);
bm.add(100);
System.out.println("12:" + (bm.contains(12)?"存在":"不存在"));
System.out.println("13:" + (bm.contains(13)?"存在":"不存在"));
System.out.println("51:" + (bm.contains(51)?"存在":"不存在"));
System.out.println("66:" + (bm.contains(66)?"存在":"不存在"));
System.out.println("100:" + (bm.contains(100)?"存在":"不存在"));
}
}
运行结果:
12:存在
13:不存在
51:存在
66:不存在
100:存在
从结果可以看到,判断的都很准确,当然这只是一个最简单的BitMap实现,它还存在着很多问题,比如我们必须知道数据中最大的那个数字是多少,这个可以采用动态扩容的方式解决;
在 JDK 中,已经有对应实现的数据结构类 java.util.BitSet,我们可以不用强撸 BitMap,直接使用 BitSet 就好了,或者使用谷歌封装的 EWAHCompressedBitmap。
优缺点
优点:
占用内存空间低,可以极大地节约空间;
运算效率高,查找、去重都不需要遍历全部数据;
缺点:
所有的数据不能重复,相当于直接就是排重过的;
如果数据只有两个:1 和 10000000,使用 BitMap 得不偿失,只有当数据比较密集时才有优势。
本章节介绍了 BitMap 的概念和基本实现,后续会介绍 BitMap 在实际开发中的应用。
期待分享
如果您喜欢本文,请点个“在看”或分享到朋友圈,这将是对我最大的鼓励。
本文分享自微信公众号 - 会点代码的大叔(CodeDaShu)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
面向移动与边缘设备的人工智能系统
⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 徐梦炜,北京大学信息科学技术学院2015级博士生,师从黄罡教授与刘譞哲副教授,将于2020年加入北京邮电大学担任特聘副研究员,博士生导师。主要研究方向为移动与边缘计算,已在相关领域的国际顶级会议如MobiCom,MobiSys,UbiComp,WWW等发表多篇论文。 一、What:如何理解移动与边缘设备上AI system? AI system是沟通上层算法应用以及底层硬件的桥梁,由于新的算法、模型、AI应用的出现,底层就会有新的硬件产出,比如AI chip、GPU,这需要有更好的系统去沟通上层与底层,支撑上层的应用,并优化应用的性能。讲者在WWW2019上发表的文章中指出,越来越多的深度学习应用运行在手机等终端设备上,这说明,随着5G以及边缘技术的发展,终端设备上的计算性能越来越强,越来越多的计算任务,比如ML和DL的推断甚至训练,更倾向于在终端设备上完成。 二、WHY:为什么在Camera 上做视频分析? 研究动机在于,把更多的计算从集中式的云服务器上off load到摄像头本身。现代化社会在城市、...
- 下一篇
5G,将边缘云服务送上浪尖
在5G创造的众多商业机会中,边缘计算可以说是一个将云计算触角延伸到用户家门口的基础设施。 因此,5G的全球竞赛在云计算领域被延伸到边缘云服务方面。 2020年,不同的云服务商陆续宣布推出基于5G网络的边缘云计算服务,为用户开发和部署高传输速度、低延迟的应用创造条件。 移动边缘计算MEC与5G的结合,不仅驱动各行业加快业务模式创新,带动了边缘云计算应用场景的创新,而且也到逼5G网络部署和云计算边缘算力的进一步提升。 1.边缘云服务能做什么? 今年五一前夕,中国联通首张移动边缘计算规模商用网络正式发布,中国联通MEC运营中心在广东落地,这是国内首个5G+边缘计算的商用网络。 5月13日,韩国SK电讯与亚马逊云服务AWS推出被称为全球首个基于5G移动网络的边缘云服务。 8月13日,AWS宣布在美国电信运营商Verizon 5G网络上推出AWS Wavelength——一种低延迟的边缘云服务,让开发者为在美国波士顿和旧金山湾区的移动设备和用户构建超低延迟应用。 那么,5G边缘云服务能做什么? 在美国,利用AWS 5G边缘云服务,客户可以使用其现有的AWS API、工具和功能,在5G网络边缘部署...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8