Hadoop 2.x (一)
1、三大马车
MapReduce ,离线计算框架。对海量数据进行处理,支持分布式,大数据分为小数据集,小数据集进行处理(Map),合并统计数据结果(Reduce)。仅适合离线批处理,很好的容错和扩展,适合简单批处理。
HDFS,分布式文件系统,存储海量数据,分布式,保证数据安全性。主节点保存着文件的元数据,存在内存中,用java写的,同时本地有备份。从节点以块为单位,保存数据及数据校验和
HBase,存储数据的数据库
YARN,分布式,资源管理框架 ,管理集群硬件等信息,主从,每个节点都有一个yarn的资源子节点,给主节点提供信息,字节点要向主节点申请资源,container。
2、Hadoop 2.x生态搭建
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HBase thrift/thrift2 使用指南
Thrift server简介 Thrift server是HBase中的一种服务,主要用于对多语言API的支持。基于Apache Thrift(多语言支持的通信框架)开发,目前有两种版本thrift和thrift2。 thrift2是当时为了适应新的Java API,提出来的。由于种种原因,thrift2没有完美兼容并替代thrift,所有就留下了两个版本。 Thrift 和 Thrift2 的区别 接口设计上Thrift2要比Thrfit更优雅,或者说和现在的API更贴近。比如两者的get接口: // Thrift2 的get接口,传入TGet(对应Java API种的Get类) // 用过Java API的同学看起来应该会更亲切 TResult get( /** the table to ge
- 下一篇
跻身数据科学领域的五条职业规划道路
预备阅读 在我们继续深入之前,读一读这些文章。我是说真的,读,这些,文章。 解析数据科学谜题(http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html) 再析数据科学谜题(http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html) 解析数据科学和大数据(http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html) 预测性科学 VS 数据科学(http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html) 第一篇文章概览数据科学中
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6