DKHadoop安装的环境准备介绍
前几天去参加了一个线下的聚会,参加聚会的基本都是从事互联网工作的。会上有人提到了区块链,从而引发了一场关于大数据方面的探讨。我也是从去年才正式接触大数据,一直在学习hadoop。相信接触过hadoop的人都知道,。单独搭建hadoop里每个组建都需要运行环境、修改配置文件、测试等过程,每个组件几乎都有坑,尤其是让新手甚是苦恼。此前有在微博上与一些博友了解过他们的配置过程,有的配置了好几天愣是没成功。
Hadoop运行环境配置的坑只有走过的人才懂,不过发现了一个比较有意思的国产hadoop发行版——大快的DKH发行版DKHadoop。DKHadoop将开源社区里多种常用组建包括:HDFS,Hbase,Storm,Flume,Kafka,Mahout,ES等都集成到了这一个平台里,所以整个运行环境的配置安装就大大被简化了。
我把此前安装的过程整理了一下分享给感兴趣的朋友,主要分为:准备阶段、服务器操作系统配置、DKH系统安装、常见问题解决方法四个部门。由于文章偏于较长,本篇重点为大家分享第一部分——准备阶段。
第一部分:准备工作
1ã 大数据平台所需配置:
(1) 系统:CentOS 6.5 64位(需默认安装Desktop)
(2) CPU :intel E3及以上。
(3) 内存:建议最小8G,用图计算建议32G,推荐128G。
(4) 硬盘:256G以上,推荐使用固态硬盘。
(5) 系统分区要求: 如无特殊需求,除swap分区外,可将剩余空间全部分配 到/ (根) 分区
(6) 网络要求:如无特殊情况,尽量可以接入外网。
(7) 至少三台服务器(三台服务器名字任意起,密码须一致)。
(8)安装使用root用户作为默认用户
2ã 远程上传和远程连接工具:
ï¼1ï¼Â 若直接使用个人PC开启的虚拟机作为服务器的基础,直接拷贝到虚拟机下即可。
ï¼2ï¼Â 若是使用机房服务器作平台搭建的服务器,如若不能直接接触到服务器,则需要使用远程工具连接并发送安装包。
第一部分的主要是安装前的准备工作,除了做好上述这些,还需要去下载一下DKH安装版本。需要的朋友也可以搜索主要一下,如果没有找到可以留言给我。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark ShuffleDependency Shuffle依赖关系
Spark ShuffleDependency Shuffle依赖关系 Represents a dependency on the output of a shuffle stage. Note that in the case of shuffle,the RDD is transient since we don’t need it on the executor side. 更多资源 github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog.csdn.net/thinktothings/article/details/84726769 youtub视频演示 https://youtu.be/8T6PyHuf_wQ (youtube视频) https://www.bilibili.com/video/av37442139/?p=5 (bilibili视频) github: https://github.com/opensourceteams/spark-scal...
- 下一篇
Flink SQL 核心解密 —— 提升吞吐的利器 MicroBatch
之前我们在 Flink SQL 中支持了 MiniBatch, 在支持高吞吐场景发挥了重要作用。今年我们在 Flink SQL 性能优化中一项重要的改进就是升级了微批模型,我们称之为 MicroBatch,也叫 MiniBatch2.0。 在设计和实现 Flink 的流计算算子时,我们一般会把“面向状态编程”作为第一准则。因为在流计算中,为了保证状态(State)的一致性,需要将状态数据存储在状态后端(StateBackend),由框架来做分布式快照。而目前主要使用的RocksDB,Niagara状态后端都会在每次read和write操作时发生序列化和反序列化操作,甚至是磁盘的 I/O 操作。因此状态的相关操作通常都会成为整个任务的性能瓶颈,状态的数据结构设计以及对状态的每一次访问都需要特别注意。 微批的核心思想就是缓存一小批数据,在访问状态状态时,多个同 key 的数据就只需要发生一次状态的操作。当批次内数据的 key 重复率较大时,能显著降低对状态的访问频次,从而大幅提高吞吐。MicroBatch 和 MiniBatch 的核心机制是一样的,就是攒批,然后触发计算。只是攒批策略不太...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Linux系统CentOS6、CentOS7手动修改IP地址