hadoop（2）：安装&使用 sqoop-低调大师

hadoop（2）：安装&使用 sqoop

2015-08-17 660

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47722393 未经博主允许不得转载。

1，关于sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

官网：http://sqoop.apache.org/
一个1.4.6 版本，一个是1.99版本（开发版还没有迁移完成，生产环境不推荐）

文档：
http://sqoop.apache.org/docs/1.4.6/

2，安装

参考之前的文章hadoop和hive用的是2.0，所以sqoop这里也用2.0，不过是alpha。直接解压缩。

配置环境变量

export JAVA_HOME=/usr/java/default
export CLASS_PATH=$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=/data/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

export HIVE_HOME=/data/apache-hive
export PATH=$HIVE_HOME/bin:$PATH

export SQOOP_HOME=/data/sqoop
export PATH=$SQOOP_HOME/bin:$PATH

sqoop启动的时候会检查hbase环境变量，不需要，直接注释
/data/sqoop/bin/configure-sqoop 的128 行到 147行。

    128 ## Moved to be a runtime check in sqoop.
    129 #if [ ! -d "${HBASE_HOME}" ]; then
    130 #  echo "Warning: $HBASE_HOME does not exist! HBase imports will fail."
    131 #  echo 'Please set $HBASE_HOME to the root of your HBase installation.'
    132 #fi
    133 
    134 ## Moved to be a runtime check in sqoop.
    135 #if [ ! -d "${HCAT_HOME}" ]; then
    136 #  echo "Warning: $HCAT_HOME does not exist! HCatalog jobs will fail."
    137 #  echo 'Please set $HCAT_HOME to the root of your HCatalog installation.'
    138 #fi
    139 
    140 #if [ ! -d "${ACCUMULO_HOME}" ]; then
    141 #  echo "Warning: $ACCUMULO_HOME does not exist! Accumulo imports will fail."
    142 #  echo 'Please set $ACCUMULO_HOME to the root of your Accumulo installation.'
    143 #fi
    144 #if [ ! -d "${ZOOKEEPER_HOME}" ]; then
    145 #  echo "Warning: $ZOOKEEPER_HOME does not exist! Accumulo imports will fail."
    146 #  echo 'Please set $ZOOKEEPER_HOME to the root of your Zookeeper installation.'
    147 #fi

hadoop和hive参考之前写的博客：
http://blog.csdn.net/freewebsys/article/details/47617975

sqoop命令主要就分为数据导入到hadoop，和数据从hadoop导出到 mysql。

首先创建mysql数据库blog，创建一个hadoop用户操作blog库，blog库里面创建一个msg表，插入6条记录

CREATE DATABASE blog DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; 

GRANT ALL PRIVILEGES ON blog.* TO sqoop@"%" IDENTIFIED BY "sqoop";

FLUSH PRIVILEGES;

##创建msg和 msg_hive数据表：
CREATE TABLE `msg_hive` (
  `id` bigint(20) NOT NULL,
  `gid` bigint(20) DEFAULT NULL ,
  `content` varchar(4000),
  `create_time` datetime DEFAULT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`,`gid`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8
PARTITION BY KEY(`gid`);

CREATE TABLE `msg` (
  `id` bigint(20) NOT NULL,
  `gid` bigint(20) DEFAULT NULL ,
  `content` varchar(4000),
  `create_time` datetime DEFAULT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`,`gid`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8
PARTITION BY KEY(`gid`);

#插入测试数据。
insert into `msg`(id,gid,content,create_time) values(1,1,'zhang san 11',now());
insert into `msg`(id,gid,content,create_time) values(1,2,'zhang san 22',now());
insert into `msg`(id,gid,content,create_time) values(1,3,'zhang san 33',now());
insert into `msg`(id,gid,content,create_time) values(2,1,'li si 11',now());
insert into `msg`(id,gid,content,create_time) values(2,2,'li si 22',now());
insert into `msg`(id,gid,content,create_time) values(2,3,'li si 33',now());

3，sqoop使用，导入，导出

首先测试下数据库连接执行select。

sqoop eval --connect jdbc:mysql://127.0.0.1:3306/blog --username sqoop --password sqoop --query 'select now()'

##执行结果：
-----------------------
| now()               | 
-----------------------
| 2015-08-18 17:22:26.0 | 
-----------------------

将mysql 数据导入到hive中，其实就是导入到hadoop上面，这里需要指定输出目录是hive的warehouse目录：

sqoop import --direct --connect jdbc:mysql://127.0.0.1:3306/blog --username sqoop --password sqoop --table msg \
--fields-terminated-by "\001" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --target-dir /user/hive/warehouse/msg

参数一大堆，设置分隔符的，设置null的。最后指定hive的warehouse目录。

但是这样hive还不识别这个表，必须在hive中创建下。

sqoop create-hive-table --hive-table msg --connect jdbc:mysql://127.0.0.1:3306/blog --username sqoop --password sqoop --table msg

将hive 数据导入到 mysql中。

sqoop export --direct --connect jdbc:mysql://127.0.0.1:3306/blog --username sqoop --password sqoop --table msg_hive \
--fields-terminated-by "\001" --lines-terminated-by "\n" --export-dir /user/hive/warehouse/msg

同样的需要配置export-dir，配置mysql的数据表msg_hive

检查结果：（分别在hive和mysql中查看数据）

hive> select * from msg;
OK
1       1       zhang san 11    2015-08-17 12:11:32
1       2       zhang san 22    2015-08-17 12:11:33
1       3       zhang san 33    2015-08-17 12:11:33
2       1       li si 11        2015-08-17 12:11:33
2       2       li si 22        2015-08-17 12:11:33
2       3       li si 33        2015-08-17 12:11:33
Time taken: 0.105 seconds, Fetched: 6 row(s)

mysql> select * from msg_hive;
+----+-----+--------------+---------------------+
| id | gid | content      | create_time         |
+----+-----+--------------+---------------------+
|  2 |   1 | li si 11     | 2015-08-17 12:11:33 |
|  2 |   2 | li si 22     | 2015-08-17 12:11:33 |
|  2 |   3 | li si 33     | 2015-08-17 12:11:33 |
|  1 |   3 | zhang san 33 | 2015-08-17 12:11:33 |
|  1 |   1 | zhang san 11 | 2015-08-17 12:11:32 |
|  1 |   2 | zhang san 22 | 2015-08-17 12:11:33 |
+----+-----+--------------+---------------------+
6 rows in set (0.00 sec)

4，总结

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47722393 未经博主允许不得转载。

sqoop提供了import和export功能，很方便的就可以迁移mysql和hive的数据。
业务数据需要迁移到hadoop上面进行计算，同时，将计算结果放到mysql数据库中进行统计显示。
数据可以方便的流动。

参考：
http://segmentfault.com/a/1190000002532293
写的参数很详细。

微信关注我们

原文链接：https://yq.aliyun.com/articles/138453

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

HBase的JAVA API操作详解

hbase 伪分布安装参考：http://blog.csdn.net/gamer_gyt/article/details/47126961 hbase shell操作命令参考：http://blog.csdn.net/gamer_gyt/article/details/47131857 数据挖掘资源链接汇总：http://blog.csdn.net/gamer_gyt/article/details/47747857 其中用到的eclipse快捷键： Alt+/ 代码助手完成一些代码的插入，自动显示提示信息 Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了) Alt+↑ 当前行和上面一行交互位置(同上) Alt+← 前一个编辑的页面 Alt+→ 下一个编辑的页面(当然是针对上面那条来说了) Alt+Shift+M 抽取方法 Alt+Shift+L 抽取本地变量 Ctrl+1 快速修复一：API介绍几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库（DataBase) HBaseConfi...

2015-08-18

728

hadoop2.6伪分布配置：http://blog.csdn.net/gamer_gyt/article/details/46793731 hive1.2 derby元数据库配置：http://blog.csdn.net/gamer_gyt/article/details/47150621 环境说明 hadoop2.6伪分布 Ubuntu14.04 hive 1.1 MySql 5.5 MySql连接驱动5.1.11 一，hive配置 1.解压hive到相应的目录(我的是/usr/localo/hadoop) 2.重命名为hive 3.设置环境变量 sudo gedit /etc/profile 添加：export HIVE_HOME=/usr/local/hadoop/hive PATH中添加 $HIVE_HIOME/bin 4.在目录$HIVE_HOME/conf/下，执行命令mv hive-default.xml.template hive-site.xml重命名在目录$HIVE_HOME/conf/下，执行命令mv hive...

2015-08-19

756

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。