Windows10系统下Hadoop和Hive开发环境搭建填坑指南-低调大师

Windows10系统下Hadoop和Hive开发环境搭建填坑指南

2020-11-03 583

前提

笔者目前需要搭建数据平台，发现了Windows系统下，Hadoop和Hive等组件的安装和运行存在大量的坑，而本着有坑必填的目标，笔者还是花了几个晚上的下班时候在多个互联网参考资料的帮助下完成了Windows10系统下Hadoop和Hive开发环境的搭建。这篇文章记录了整个搭建过程中的具体步骤、遇到的问题和对应的解决方案。

环境准备

❝
基于笔者的软件版本洁癖，所有选用的组件都会使用当前（2020-10-30）最高的版本。
❞

软件	版本	备注
`Windows`	`10`	操作系统
`JDK`	`8`	暂时不要选用大于等于`JDK9`的版本，因为启动虚拟机会发生未知异常
`MySQL`	`8.x`	用于管理`Hive`的元数据
`Apache Hadoop`	`3.3.0`	-
`Apache Hive`	`3.1.2`	-
`Apache Hive src`	`1.2.2`	因为只有`1.x`版本的`Hive`源码提供了`.bat`启动脚本，有能力可以自己写脚本就不用下此源码包
`winutils`	`hadoop-3.3.0`	`Hadoop`的`Windows`系统下的启动依赖

下面列举部分组件对应的下载地址：

Apache Hadoop 3.3.0： https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
Apache Hive 3.1.2： https://mirrors.bfsu.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
Apache Hive 1.2.2 src： https://mirrors.bfsu.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-src.tar.gz
winutils： https://github.com/kontext-tech/winutils（如果下载速度慢，可以先把仓库导入 gitee.com再下载，或者用笔者已经同步好的仓库 https://gitee.com/throwableDoge/winutils）

下载完这一些列软件之后，MySQL正常安装为系统服务随系统自启。解压hadoop-3.3.0.tar.gz、apache-hive-3.1.2-bin.tar.gz、apache-hive-1.2.2-src.tar.gz和winutils到指定目录：

接着把源码包apache-hive-1.2.2-src.tar.gz解压后的bin目录下的文件拷贝到apache-hive-3.1.2-bin的bin目录中：

然后把winutils中的hadoop-3.3.0\bin目录下的hadoop.dll和winutils.exe文件拷贝到Hadoop的解压目录的bin文件夹下：

最后再配置一下JAVA_HOME和HADOOP_HOME两个环境变量，并且在Path中添加%JAVA_HOME%\bin;和%HADOOP_HOME%\bin：

❝
笔者本地安装的JDK版本为1.8.0.212，理论上任意一个小版本的JDK8都可以。
❞

接着用命令行测试一下，如果上述步骤没问题，控制台输出如下：

配置和启动Hadoop

在HADOOP_HOME的etc\hadoop子目录下，找到并且修改下面的几个配置文件：

「core-site.xml」（这里的tmp目录一定要配置一个非虚拟目录，别用默认的tmp目录，否则后面会遇到权限分配失败的问题）

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>  
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/e:/LittleData/hadoop-3.3.0/data/tmp</value>
    </property>  
</configuration>

「hdfs-site.xml」（这里要预先创建nameNode和dataNode的数据存放目录，注意一下每个目录要以/开头，笔者这里预先在HADOOP_HOME/data创建了nameNode和dataNode子目录）

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.http.address</name>
        <value>0.0.0.0:50070</value>
    </property>
    <property>    
        <name>dfs.namenode.name.dir</name>    
        <value>/e:/LittleData/hadoop-3.3.0/data/nameNode</value>    
    </property>    
    <property>    
        <name>dfs.datanode.data.dir</name>    
        <value>/e:/LittleData/hadoop-3.3.0/data/dataNode</value>  
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
</configuration>

「mapred-site.xml」

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

「yarn-site.xml」

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

至此，最小化配置基本完成。接着需要格式化namenode并且启动Hadoop服务。切换至$HADOOP_HOME/bin目录下，使用CMD输入命令hdfs namenode -format（格式化namenode切记不要重复执行）：

格式化namenode完毕后，切换至$HADOOP_HOME/sbin目录下，执行start-all.cmd脚本：

这里命令行会提示start-all.cmd脚本已经过期，建议使用start-dfs.cmd和start-yarn.cmd替代。同理，如果执行stop-all.cmd也会有类似的提示，可以使用stop-dfs.cmd和stop-yarn.cmd替代。start-all.cmd成功执行后，会拉起四个JVM实例（见上图中的Shell窗口自动新建了四个Tab），此时可以通过jps查看当前的JVM实例：

λ jps
19408 ResourceManager
16324 NodeManager
14792 Jps
15004 NameNode
2252 DataNode

可见已经启动了ResourceManager、NodeManager、NameNode和DataNode四个应用，至此Hadoop的单机版已经启动成功。通过stop-all.cmd命令退出这四个进程。可以通过http://localhost:8088/查看调度任务的状态：

通过http://localhost:50070/去查看HDFS的状态和文件：

重启Hadoop的办法：先执行stop-all.cmd脚本，再执行start-all.cmd脚本。

配置和启动Hive

Hive是构筑于HDFS上的，所以务必确保Hadoop已经启动。Hive在HDFS中默认的文件路径前缀是/user/hive/warehouse，因此可以先通过命令行在HDFS中创建此文件夹：

hdfs dfs -mkdir /user/hive/warehouse
hdfs dfs -chmod -R 777 /user/hive/warehouse

同时需要通过下面的命令创建并为tmp目录赋予权限：

hdfs dfs -mkdir /tmp
hdfs dfs -chmod -R 777 /tmp

在系统变量中添加HIVE_HOME，具体的值配置为E:\LittleData\apache-hive-3.1.2-bin，同时在Path变量添加%HIVE_HOME%\bin;，跟之前配置HADOOP_HOME差不多。下载和拷贝一个mysql-connector-java-8.0.x.jar到$HIVE_HOME/lib目录下：

创建Hive的配置文件，在$HIVE_HOME/conf目录下已经有对应的配置文件模板，需要拷贝和重命名，具体如下：

$HIVE_HOME/conf/hive-default.xml.template => $HIVE_HOME/conf/hive-site.xml
$HIVE_HOME/conf/hive-env.sh.template => $HIVE_HOME/conf/hive-env.sh
$HIVE_HOME/conf/hive-exec-log4j.properties.template => $HIVE_HOME/conf/hive-exec-log4j.properties
$HIVE_HOME/conf/hive-log4j.properties.template => $HIVE_HOME/conf/hive-log4j.properties

修改hive-env.sh脚本，在尾部添加下面内容：

export HADOOP_HOME=E:\LittleData\hadoop-3.3.0
export HIVE_CONF_DIR=E:\LittleData\apache-hive-3.1.2-bin\conf
export HIVE_AUX_JARS_PATH=E:\LittleData\apache-hive-3.1.2-bin\lib

修改hive-site.xml文件，主要修改下面的属性项：

属性名	属性值	备注
`hive.metastore.warehouse.dir`	`/user/hive/warehouse`	`Hive`的数据存储目录，这个是默认值
`hive.exec.scratchdir`	`/tmp/hive`	`Hive`的临时数据目录，这个是默认值
`javax.jdo.option.ConnectionURL`	`jdbc:mysql://localhost:3306/hive?characterEncoding=UTF-8&serverTimezone=UTC`	`Hive`元数据存放的数据库连接
`javax.jdo.option.ConnectionDriverName`	`com.mysql.cj.jdbc.Driver`	`Hive`元数据存放的数据库驱动
`javax.jdo.option.ConnectionUserName`	`root`	`Hive`元数据存放的数据库用户
`javax.jdo.option.ConnectionPassword`	`root`	`Hive`元数据存放的数据库密码
`hive.exec.local.scratchdir`	`E:/LittleData/apache-hive-3.1.2-bin/data/scratchDir`	创建本地目录`$HIVE_HOME/data/scratchDir`
`hive.downloaded.resources.dir`	`E:/LittleData/apache-hive-3.1.2-bin/data/resourcesDir`	创建本地目录`$HIVE_HOME/data/resourcesDir`
`hive.querylog.location`	`E:/LittleData/apache-hive-3.1.2-bin/data/querylogDir`	创建本地目录`$HIVE_HOME/data/querylogDir`
`hive.server2.logging.operation.log.location`	`E:/LittleData/apache-hive-3.1.2-bin/data/operationDir`	创建本地目录`$HIVE_HOME/data/operationDir`
`datanucleus.autoCreateSchema`	`true`	可选
`datanucleus.autoCreateTables`	`true`	可选
`datanucleus.autoCreateColumns`	`true`	可选
`hive.metastore.schema.verification`	`false`	可选

修改完毕之后，在本地的MySQL服务新建一个数据库hive，编码和字符集可以选用范围比较大的utf8mb4（虽然官方建议是latin1，但是字符集往大范围选没有影响）：

上面的准备工作做完之后，可以进行Hive的元数据库初始化，在$HIVE_HOME/bin目录下执行下面的脚本：

hive --service schematool -dbType mysql -initSchema

这里有个小坑，hive-site.xml文件的第3215行有个神奇的无法识别的符号：

此无法识别符号会导致Hive的命令执行异常，需要去掉。当控制台输出Initialization script completed schemaTool completed的时候，说明元数据库已经初始化完毕：

在$HIVE_HOME/bin目录下，通过hive.cmd可以连接Hive（关闭控制台即可退出）：

> hive.cmd

尝试创建一个表t_test：

hive>  create table t_test(id INT,name string);
hive>  show tables;

查看http://localhost:50070/确认t_test表已经创建成功。

尝试执行一个写入语句和查询语句：

hive>  insert into t_test(id,name) values(1,'throwx');
hive>  select * from t_test;

写用了30多秒，读用了0.165秒。

使用JDBC连接Hive

HiveServer2是Hive服务端接口模块，必须启动此模块，远程客户端才能对Hive进行数据写入和查询。目前，此模块还是基于Thrift RPC实现，它是HiveServer的改进版，支持多客户端接入和身份验证等功能。配置文件hive-site.xml中可以修改下面几个关于HiveServer2的常用属性：

属性名	属性值	备注
`hive.server2.thrift.min.worker.threads`	`5`	最小工作线程数，默认值为5
`hive.server2.thrift.max.worker.threads`	`500`	最大工作线程数，默认值为500
`hive.server2.thrift.port`	`10000`	侦听的`TCP`端口号，默认值为10000
`hive.server2.thrift.bind.host`	`127.0.0.1`	绑定的主机，默认值为`127.0.0.1`
`hive.execution.engine`	`mr`	执行引擎，默认值为`mr`

在$HIVE_HOME/bin目录下执行下面的命令可以启动HiveServer2：

hive.cmd --service hiveserver2

客户端需要引入hadoop-common和hive-jdbc依赖，依赖的版本尽量和对接的Hadoop和Hive版本对应。

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>3.3.0</version>
</dependency>
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-jdbc</artifactId>
    <version>2.3.5.RELEASE</version>
</dependency>

hadoop-common依赖链比较长，会连带下载大量其他相关依赖，所以可以找个空闲时间在某个Maven项目先挂起该依赖下载的任务（笔者挂起此依赖下载任务洗完澡仍然没下完，还会出现org.glassfish:javax.el的快照包无法下载的问题，不过不影响正常使用）。最后添加一个单元测试类HiveJdbcTest：

@Slf4j
public class HiveJdbcTest {

    private static JdbcTemplate TEMPLATE;
    private static HikariDataSource DS;

    @BeforeClass
    public static void beforeClass() throws Exception {
        HikariConfig config = new HikariConfig();
        config.setDriverClassName("org.apache.hive.jdbc.HiveDriver");
        // 这里笔者修改过hive-site.xml的对应配置,因为端口不是默认的10000
//        config.setJdbcUrl("jdbc:hive2://127.0.0.1:10091");
        config.setJdbcUrl("jdbc:hive2://127.0.0.1:10091/db_test");
        DS = new HikariDataSource(config);
        TEMPLATE = new JdbcTemplate(DS);
    }

    @AfterClass
    public static void afterClass() throws Exception {
        DS.close();
    }

    @Test
    public void testCreateDb() throws Exception {
        TEMPLATE.execute("CREATE DATABASE db_test");
    }

    @Test
    public void testCreateTable() throws Exception {
        TEMPLATE.execute("CREATE TABLE IF NOT EXISTS t_student(id INT,name string,major string)");
        log.info("创建t_student表成功");
    }

    @Test
    public void testInsert() throws Exception {
        int update = TEMPLATE.update("INSERT INTO TABLE t_student(id,name,major) VALUES(?,?,?)", p -> {
            p.setInt(1, 10087);
            p.setString(2, "throwable");
            p.setString(3, "math");
        });
        log.info("写入t_student成功,更新记录数:{}", update);  // 这里比较神奇,数据写入了,返回的update数量为0
    }

    @Test
    public void testSelect() throws Exception {
        List<Student> result = TEMPLATE.query("SELECT * FROM t_student", rs -> {
            List<Student> list = new ArrayList<>();
            while (rs.next()) {
                Student student = new Student();
                student.setId(rs.getLong("id"));
                student.setName(rs.getString("name"));
                student.setMajor(rs.getString("major"));
                list.add(student);
            }
            return list;
        });
        // 打印日志：查询t_student成功,结果:[HiveJdbcTest.Student(id=10087, name=throwable, major=math)]
        log.info("查询t_student成功,结果:{}", result);
    }

    @Data
    private static class Student {

        private Long id;
        private String name;
        private String major;
    }
}

可能遇到的问题

下面小结一下可能遇到的问题。

Java虚拟机启动失败

目前定位到是Hadoop无法使用JDK[9+的任意版本JDK，建议切换为任意JDK8的小版本。

出现找不到Hadoop执行文件异常

确保已经把winutils中的hadoop-3.3.0\bin目录下的hadoop.dll和winutils.exe文件拷贝到Hadoop的解压目录的bin文件夹中。

start-all.cmd脚本执行时有可能出现找不到批处理脚本的异常。此问题在公司的开发机出现过，在家用的开发机没有重现，具体解决方案是在start-all.cmd脚本的首行加入cd $HADOOP_HOME，如cd E:\LittleData\hadoop-3.3.0。

无法访问localhost:50070

一般是因为hdfs-site.xml配置遗漏了dfs.http.address配置项，添加：

<property>
    <name>dfs.http.address</name>
    <value>0.0.0.0:50070</value>
</property>

然后调用stop-all.cmd，再调用start-all.cmd重启Hadoop即可。

Hive连接MySQL异常

注意MySQL的驱动包是否已经正确拷贝到$HIVE_HOME/lib下，并且检查javax.jdo.option.ConnectionURL等四个属性是否配置正确。如果都正确，注意是否MySQL的版本存在问题，或者服务的版本与驱动版本不匹配。

Hive找不到批处理文件

一般描述是'xxx.cmd' is not recognized as an internal or external command...，一般是Hive的命令执行时的异常，需要把Hive 1.x的源码包的bin目录下的所有.cmd脚本拷贝到$HIVE_HOME/bin对应的目录下。

文件夹权限问题

常见如CreateSymbolicLink异常，会导致Hive无法使用INSERT或者LOAD命令写入数据。出现这类问题可以通过下面方式解决：

Win + R然后运行 gpedit.msc - 计算机设置 - Windows设置 — 安全设置 - 本地策略 - 用户权限分配 - 创建符号链接 - 添加当前用户。

或者「直接使用管理员账号或者管理员权限启动CMD」，然后执行对应的脚本启动Hadoop或者Hive。

SessionNotRunning异常

启动HiveServer2中或者外部客户端连接HiveServer2时候有可能出现此异常，具体是java.lang.ClassNotFoundException: org.apache.tez.dag.api.TezConfiguration的异常。解决方案是：配置文件hive-site.xml中的hive.execution.engine属性值由tez修改为mr，然后重启HiveServer2即可。因为没有集成tez，重启后依然会报错，但是60000ms后会自动重试启动（一般重试后会启动成功）：

这算是一个遗留问题，但是不影响客户端正常连接，只是启动时间会多了60秒。

HiveServer2端口冲突

修改配置文件hive-site.xml中的hive.server2.thrift.port属性值为未被占用的端口，重启HiveServer2即可。

数据节点安全模式异常

一般是出现SafeModeException异常，提示Safe mode is ON。通过命令hdfs dfsadmin -safemode leave解除安全模式即可。

AuthorizationException

常见的是Hive通过JDBC客户端连接HiveServer2服务时候会出现这个异常，具体是信息是：User: xxx is not allowed to impersonate anonymous。这种情况只需要修改Hadoop的配置文件core-site.xml，添加：

<property>
    <name>hadoop.proxyuser.xxx.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.xxx.groups</name>
    <value>*</value>
</property>

❝
这里的xxx是指报错时候具体的系统用户名，例如笔者开发机的系统用户名为doge
❞

然后重启Hadoop服务即可。

MapRedTask的权限问题

常见的是Hive通过JDBC客户端连接HiveServer2服务执行INSERT或者LOAD操作时候抛出的异常，一般描述是Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Permission denied: user=anonymous, access=EXECUTE, inode="/tmp/hadoop-yarn":xxxx:supergroup:drwx------。通过命令hdfs dfs -chmod -R 777 /tmp赋予匿名用户/tmp目录的读写权限即可。

小结

没什么事最好还是直接在Linux或者Unix系统中搭建Hadoop和Hive的开发环境比较合理，Windows系统的文件路径和权限问题会导致很多意想不到的问题。本文参考了大量互联网资料和Hadoop和Hive的入门书籍，这里就不一一贴出，站在巨人的肩膀上。

（本文完 c-4-d e-a-20201102）

本文分享自微信公众号 - Throwable文摘（throwable-doge）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

微信关注我们

原文链接：https://my.oschina.net/throwable/blog/4702063

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何在Android 11 中正确请求位置权限？以及Android 8 - 11位置权限的变化及适配方法！

由于现在位置信息变为了敏感数据，因此Android限制了它的使用，尤其在APP后台。在Android 9 之前，位置权限没有按照前后台分离，APP在前台和后台使用相同的资源。但是，Google开始意识到一些APP滥用此类数据，于是决定按照前台和后台分离资源的方式，增加一些层级来保护用户的位置信息数据。对于Android开发者来说，这就为我们在APP中请求位置权限增加了一些额外的工作。在详细介绍之前，让我们先看一看在最近几个Android版本中的更改日志：在Android 8 中：处于后台的应用，每小时只能检索几次用户的位置。 Android 10 之前：位置权限是一个单一资源，应用只需一次授权就可以到处使用，随时使用（前台和后台）在Android 10 中：后台位置变成了一个独立的资源，应用程序除了前台请求外，还必须明确请求此权限。 Android 11 中：无法与其他人同时请求后台位置权限，应用必须单独请求。此外，请求此权限不会像其他权限一样立即弹窗提示用户，而是会将用户带到/ Settings页面/ Location权限会话，以便用户可以更新权限级别。根据上面的...

2020-11-04

563

知识是需要积累的，有些冷知识、骚操作，你可能现在不需要，但是只有当你玩儿过，以后再碰到这个需求，你才会有印象，方便查询。引入问题其实，这个知识点也是在群里面遇到了，如果当时问我，我也会很蒙逼。因此，我做了一个简单的学习，并将其整理后，供大家学习和参考。比如说：我们得到了一个df_new表格，我们想要将其保存在本地，应该怎么办呢？保存图片，你可能用的多。但是保存这个表格，你估计就不一定知道了。为什么需要将df_new保存在本地呢？其实提问者是为了将表格保存在本地，后面需要完成自动化群发消息的操作，这样一来，你不仅仅可以发图片，现在还可以发表格了，是不是很舒服？那么，这样一个操作，应该怎么完成呢？下面我为大家慢慢讲述。方法介绍完成这个需求使用的是dataframe_image库，因此在使用他之前，需要我们先安装这个库。 pipinstalldataframe_image 然后在使用之前，还需要导入这个库。 importdataframe_imageasdfi 接着，调用dfi中的export()方法，就可以实现这个需求。但是关于这个知识点，你在百度上面其实看不到任何解答，那么...

2020-11-03

681

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。