Hadoop和Spark集群搭建的大致流程

【Hadoop】

1.首先,准备好Hadoop安装包和JDK的安装与配置
2.建立各个机器之间的ssh信任关系,即互信
3.修改hadoop配置文件
【core、hdfs、yarn、mapred】
默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml
特定配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
特定配置文件会覆盖默认的配置项
image
image
image
【core-site.xml】
是整个Hadoop通用的配置,集群的每个主机都存在。
分布式文件系统名字、临时目录以及其他与网络配置相关的参数
【hdfs-site.xml】
配置HDFS系统的运行时属性和各个数据节点上文件的物理存储相关的属性
主-辅节点存放元数据文件表(fsimage文件)的目录
主-辅节点存储元数据事务处理文件(edits文件)的目录
默认数据块大小
数据块备份数量
名称节点和数据节点通信的服务器线程数,默认为10
【mapred-site.xml】
保护了与CPU、内存、磁盘I/O和网络相关的参数
任务是本地作业执行器还是提交到yarn集群
运行Map或Reduce任务的JVM堆大小
运行Map和Reduce任务的容器的内存大小
存储中间数据文件的本地目录
作业跟踪器(YARN)的服务器进程数量
任务重试的最大次数
【yarn-site.xml】
配置由YARN框架提供的通用服务守护进程的属性,比如资源管理器和节点管理器
运行资源管理器的主机名以及端口号
启动容器的最大最小内存量和虚拟CPU内核数

【Spark】

在有JDK和Hadoop的基础上,安装Scala
修改配置文件
【spark属性、环境变量、日志配置】
属性可以直接在sparkconf上配置给sparkcontext
spark shell和spark-submit工具支持两种方式动态加载配置,第一种是命令行选项,第二种运行./bin/spark-submit实现
当然spark-submit也会在conf/spark-defaults.conf中读取配置选项
driver程序运行时需要的cpu内核数和内存数
每个executor进程使用的内存数

优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/640727

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。