近期将要购买的书籍
1.Hadoop权威指南
http://product.china-pub.com/194011
2.实战hadoop
http://product.china-pub.com/198552#ml
3.Cassandra 权威指南
http://product.china-pub.com/198403
4.lucene

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
算法研究:如何将数组中的重复数据查找出来
在网上看到一个面试题,是怎么在10万个手机号码中把重复的号码筛选出来。 想了一下,可以先使用快速排序法进行排序,然后再逐条循环和相邻号码匹配,这样重复的号码就出来了。 如果分段进行的话可以适当减小算法的复杂度。而且可以通过多线程充分利用CPU性能。 使用mapreduce简直不要太容易了。 var result = 号码.MapReduce(t=> { return newKeyValueClass(t.号码, 1); }, (key, values)=> { return values.Count(); }); 然后循环字典result,把value>1的数据取出来就可以了
- 下一篇
云计算读书笔记(二)
google云计算原理与应用 google云计算服务包括:google文件系统GFS,分布式计算编程模形MapReduce,分布式锁服务Chubby,分布式结构化数据表Bigtable,分布式存储系统Megastore以及分布式监控系统Dapper等。 GFS提供了海量数据的存储和访问能力。 GFS 系统架构: 分为三类角色,client(客户端),Master(主服务器)和Chunk Server(数据块服务器) 1,使用的是中心服务器模块,可以任意添加chunk server. 2,不实现缓存,这是从必要性和可行性两方面考虑。 必要性:客户端大部分是流式读写,不存在大量的重复读写。 可行性:如何维护缓存与实际数据之间一致性是一个极其复杂的问题。加之网络等不确定因素,一致性问题尤为复杂。而且数据量非常大,以当前的内存容量根本无法缓存。 而对于存储在GFS的Master中的数据实现了缓存。 3,在用户状态下实现,正常的文件系统是操作系统的重要组成部分,在内核态实现文件系统可以更好的和操作系统本身结合。 但GFS却选择在用户态下实现,主要基于以下考虑: 1)在用户态下直接利用操作系统提供...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7设置SWAP分区,小内存服务器的救世主
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Hadoop3单机部署,实现最简伪集群