sqoop将mysql数据导入hbase、hive的常见异常处理-低调大师

sqoop将mysql数据导入hbase、hive的常见异常处理

2019-04-12 677

sqoop将mysql数据导入hbase、hive的常见异常处理
一、需求：
1、将以下这张表（test_goods[id,goods_name,goods_price]）数据导入Hbase

由此，编写如下sqoop导入命令

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9/spider --username root --password root --table test_goods --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key id -m 1
一切看着都很正常，接下来开始执行命令，报如下错误：

Error during import: No primary key could be found for table *

报错原因就是指定的mysql表名不是大写，所以mysql表名必须大写

Could not insert row with null value for row-key column

报错原因是没有指定mysql的列名，所以必须指定列名，并且hbase-row-key id 中的id，必须在–columns中显示。 --columns ID,GOODS_NAME, GOODS_PRICE

Error parsing arguments for import Unrecognized argument

报错原因是在指定mysql的列名时，用逗号隔开的时候我多加了空格，所以在
Columns后显示的列名只能用逗号隔开，不要带空格

将以上三个问题排除后：我的最新导入命令变为如下：

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID --where "ID >= 5" -m 1
注意：这里有个小问题：记得将id>=5引起来,ok，查看hbase,数据已经成功导入！！！

2、将导入命令写成一个脚本来执行（通过sqoop –options-file xxx.file 执行导入命令）
错误写法如下：

import
-D sqoop.hbase.add.row.key=true
--connect jdbc:mysql://192.168.1.9:3306/spider
--username root
--password root
--table TEST_GOODS
--columns ID,GOODS_NAME,GOODS_PRICE
--hbase-create-table
--hbase-table test_goods
--column-family cf
--hbase-row-key ID
--where "ID >= 5"
-m 1
错误原因：参数的名称和参数的值没有进行回车换行

正确写法：

import
-D
sqoop.hbase.add.row.key=true
--connect
jdbc:mysql://192.168.1.9:3306/spider
--username
root
--password
root
--table
TEST_GOODS
--columns
ID,GOODS_NAME,GOODS_PRICE
--hbase-create-table
--hbase-table
tt_goods
--column-family
cf
--hbase-row-key
ID
--where
ID>=5
-m
1
注：参数含义解释

-D sqoop.hbase.add.row.key=true 是否将rowkey相关字段写入列族中，默认为false，默认情况下你将在列族中看不到任何row key中的字段。注意，该参数必须放在import之后。
--connect 数据库连接字符串
--username –password mysql数据库的用户名密码
--table Test_Goods表名，注意大写
--hbase-create-table 如果hbase中该表不存在则创建
--hbase-table 对应的hbase表名
--hbase-row-key hbase表中的rowkey,注意格式
--column-family hbase表的列族
--where 导入是mysql表的where条件，写法和sql中一样
--split-by CREATE_TIME 默认情况下sqoop使用4个并发执行任务，需要制订split的列，如果不想使用并发，可以用参数 --m 1
二、定时增量导入
1、Sqoop增量导入
sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID --incremental lastmodified --check-column U_DATE --last-value '2017-06-27' --split-by U_DATE

--incremental lastmodified 增量导入支持两种模式 append 递增的列；lastmodified时间戳。
--check-column 增量导入时参考的列
--last-value 最小值，这个例子中表示导入2017-06-27到今天的值
2、Sqoop job
sqoop job --create testjob01 --import --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID -m 1
设置定时执行以上sqoop job
使用linux定时器：crontab -e
例如每天执行

0 0 * /opt/local/sqoop-1.4.6/bin/sqoop job ….
--exec testjob01
三、数据从mysql导入hive中后，出现数据不一致情况
我们运行hadoop fs -cat /user/hadoop/student/part-m-00000,可以看到原来字段与字段之间都用‘,’分隔开，这是sqoop默认的，这时候，如果一个字段值当中包含‘,’，再向hive中插入数据时分隔就会出错。因为hive也是用‘,’分隔的。

解决方法：建议用‘001'来进行sqoop 导入数据时的分割。也就是--fields-terminated-by 参数。
例子：

sqoop import --connect "jdbc:oracle:thin:@//localhost:1521/student" --password "" --username "" --query "select * from student where name='zhangsan' and class_id='003' and &dollar;CONDITIONS" --target-dir "/user/hadoop/student" --fields-terminated-by "001" --verbose -m 1
四、总结
这些只是工作中一些小问题的解决，希望对大家有所帮助~~
原文出处https://www.cnblogs.com/baixianlong/p/10700700.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/698059

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

最详细的大数据学习路线图

一、入门准备1、linux操作基础 Linux的介绍，Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程Linux的常用命令：常用命令的介绍、常用命令的使用和练习（文件操作、用户管理与权限、免密登陆配置与网络管理）Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用；Linux启动流程，运行级别详解，chkconfig详解VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键Linux磁盘管理，lvm逻辑卷，nfs详解Linux系统文件权限管理：文件权限介绍、文件权限的操作Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作yum命令，yum源搭建Linux网络：Linux网络的介绍、Linux网络的配置和维护防火墙配置Shell编程：Shell的介绍、Shell脚本的编写Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署13）linux高级文本处理命令cut、sed、awklinux 14）定时任务crontab 2、大型网...

2019-04-12

646

任何学习过程都需要一个科学合理的学习路线，才能够有条不紊的完成我们的学习目标。大数据所需学习的内容纷繁复杂，难度较大，有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要。一、Java语言以java语言为基础掌握面向对象编程思想所涉及的知识，以及该知识在面向对象编程思想中的应用，培养学生设计程序的能力。掌握程度：精通。互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习群：498856122 欢迎进阶中和进想深入大数据的小伙伴加入。二、数据结构与算法掌握基于JAVA语言的底层数据结构和算法原理，并且能够自己动手写出来关于集合的各种算法和数据结构，并且了解这些数据结构处理的问题和优缺点。掌握程度：熟练。三、数据库原理与MYSQL数据库掌握关系型数据库的原理，掌握结构化数据的特性。掌握关系型数据库的范式。通过MYSQL数据库掌握通过SQL语言与MYSQL数据库进行交互。熟练掌握各种复杂SQL语句的编写。掌握程度：熟练。四、LINUX操作系统...

2019-04-13

710

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。