DKHadoop安装的环境准备介绍-低调大师

DKHadoop安装的环境准备介绍

2018-12-04 586

前几天去参加了一个线下的聚会，参加聚会的基本都是从事互联网工作的。会上有人提到了区块链，从而引发了一场关于大数据方面的探讨。我也是从去年才正式接触大数据，一直在学习hadoop。相信接触过hadoop的人都知道，。单独搭建hadoop里每个组建都需要运行环境、修改配置文件、测试等过程，每个组件几乎都有坑，尤其是让新手甚是苦恼。此前有在微博上与一些博友了解过他们的配置过程，有的配置了好几天愣是没成功。

Hadoop运行环境配置的坑只有走过的人才懂，不过发现了一个比较有意思的国产hadoop发行版——大快的DKH发行版DKHadoop。DKHadoop将开源社区里多种常用组建包括：HDFS，Hbase，Storm，Flume，Kafka，Mahout，ES等都集成到了这一个平台里，所以整个运行环境的配置安装就大大被简化了。

我把此前安装的过程整理了一下分享给感兴趣的朋友，主要分为：准备阶段、服务器操作系统配置、DKH系统安装、常见问题解决方法四个部门。由于文章偏于较长，本篇重点为大家分享第一部分——准备阶段。

第一部分：准备工作

1ãÂ 大数据平台所需配置：

(1) 系统：CentOS 6.5 64位（需默认安装Desktop）

(2) CPU ：intel E3及以上。

(3) 内存：建议最小8G,用图计算建议32G,推荐128G。

(4) 硬盘：256G以上,推荐使用固态硬盘。

(5) 系统分区要求：如无特殊需求，除swap分区外，可将剩余空间全部分配到/ （根）分区

(6) 网络要求：如无特殊情况，尽量可以接入外网。

(7) 至少三台服务器（三台服务器名字任意起，密码须一致）。

（8）安装使用root用户作为默认用户

2ãÂ 远程上传和远程连接工具：

ï¼1ï¼Â 若直接使用个人PC开启的虚拟机作为服务器的基础，直接拷贝到虚拟机下即可。

ï¼2ï¼Â 若是使用机房服务器作平台搭建的服务器，如若不能直接接触到服务器，则需要使用远程工具连接并发送安装包。

第一部分的主要是安装前的准备工作，除了做好上述这些，还需要去下载一下DKH安装版本。需要的朋友也可以搜索主要一下，如果没有找到可以留言给我。

微信关注我们

原文链接：https://yq.aliyun.com/articles/675089

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark ShuffleDependency Shuffle依赖关系

Spark ShuffleDependency Shuffle依赖关系 Represents a dependency on the output of a shuffle stage. Note that in the case of shuffle,the RDD is transient since we don’t need it on the executor side. 更多资源 github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog.csdn.net/thinktothings/article/details/84726769 youtub视频演示 https://youtu.be/8T6PyHuf_wQ (youtube视频) https://www.bilibili.com/video/av37442139/?p=5 (bilibili视频) github: https://github.com/opensourceteams/spark-scal...

2018-12-04

749

之前我们在 Flink SQL 中支持了 MiniBatch, 在支持高吞吐场景发挥了重要作用。今年我们在 Flink SQL 性能优化中一项重要的改进就是升级了微批模型，我们称之为 MicroBatch，也叫 MiniBatch2.0。在设计和实现 Flink 的流计算算子时，我们一般会把“面向状态编程”作为第一准则。因为在流计算中，为了保证状态（State）的一致性，需要将状态数据存储在状态后端（StateBackend），由框架来做分布式快照。而目前主要使用的RocksDB,Niagara状态后端都会在每次read和write操作时发生序列化和反序列化操作，甚至是磁盘的 I/O 操作。因此状态的相关操作通常都会成为整个任务的性能瓶颈，状态的数据结构设计以及对状态的每一次访问都需要特别注意。微批的核心思想就是缓存一小批数据，在访问状态状态时，多个同 key 的数据就只需要发生一次状态的操作。当批次内数据的 key 重复率较大时，能显著降低对状态的访问频次，从而大幅提高吞吐。MicroBatch 和 MiniBatch 的核心机制是一样的，就是攒批，然后触发计算。只是攒批策略不太...

2018-12-04

610

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。