Sqoop安装-低调大师

Sqoop安装

2018-09-04 664

Sqoop是Hadoop生态里，实现Hive、Hbase等大数据数据库与MySQL、Oracle导入导出的工具。
其实就是包含两部分功能：（1）HDFS的读写能力（2）加载JDBC。
这篇文章记录了配置sqoop的步骤。在实验过程中，遇到了一些ERROR，反复百度也没有找到解决方法。最后，把sqoop安装文件夹删除，wget原始文件，重头配置了一遍，一切都OK了。还是“重装”最好用。

一、下载sqoop 1.4.7

如图，下载地址很好找。本文还是用sqoop1。

下载页面下有两个链接，使用sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz，包含hadoop支持。不要用sqoop-1.4.7.tar.gz。

二、下载mysql-connector-java

到mysql官网查找mysql-connector/j，下载mysql服务器对应版本5.1.x，platform independent版。

解压之后，拷贝一下两个文件到sqoop安装目录lib.

三、修改配置

添加环境变量

export SQOOP_HOME="/opt/sqoop"
export PATH=$SQOOP_HOME/bin:$PATH

主要配置文件sqoop/config/sqoop-env.sh，设置hadoop路径。

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/opt/hadoop-2.7.3

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/opt/hadoop-2.7.3

四、测试

bin/sqoop-list-databases --connect jdbc:mysql://mysql1:3306 --username shell --password 123456

Please set $HCAT_HOME to the root of your HCatalog installation. Warning: /opt/sqoop/../accumulo does not exist! Accumulo imports will fail. Please set$ ACCUMULO_HOME to the root of your Accumulo installation.
18/09/05 09:01:47 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7
18/09/05 09:01:47 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.
18/09/05 09:01:47 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
information_schema

Alibaba
db
hadooptrain
metastore
mysql
performance_schema
test

测试成功！

五、总结

第一次安装之后出现问题，各种百度，各种试，最后按标准流程做了一遍，测试通过。
总结这种方法，仔细读手册，掌握官方jar下载路径。

NoClassDefFoundError: org/apache/avro/LogicalType

这个问题出现了，没有解决，希望再遇到的同学和我一样，按官方jar下载重装解决。

我的博客即将入驻“云栖社区”，诚邀技术同仁一同入驻

微信关注我们

原文链接：https://yq.aliyun.com/articles/635535

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Flink: 快速构建统一的实时日志平台

本文围绕一个中型电商/互联网公司涉及到日志的复杂系统运维、业务运营问题，使用Flink+Kafka+HBase+ES四套系统，告诉读者如何在一家中型互联网公司里面快速构建一套实时日志平台。背景最近在维护一个日志的项目，这个项目是负责收集、处理、存储、查询商家相关操作的日志，我们这里就叫它“商家日志”。在日常的开发过程中，可能我们对日志这个词并不陌生，例如我们常接触到的log4j、slf4j等等，这些日志工具通常被我们用来记录代码运行的情况，当我们的系统出了问题时，我们可以通过查看日志及时的定位问题的所在，从而很快的解决问题，今天我所讲的商家日志，又与这个有些许的不同，商家日志是用来记录商家对系统各个功能的操作情况，例如：张三这个商家对它的店铺的某款商品进行了价格的修改。这样在我们这就会记录下一条日志在我们的系统当中，在这个系统中的

2018-09-04

688

学校一门Big Data Computing需要学习Spark in Python。这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。 Prerequisite 我的系统是：Ubuntu 18.06 LTS 已经装好了python2和3(如果没有可以看看这个链接) 装好了jupyter notebook，没有的话自行google吧装了Java 8或更高版本的Java(没有，也可以看看这个链接) PySpark Installation Steps 1.去Spark downloads page.选择最新的Spark Release包(a prebuilt package for Hadoop), 然后直接下载。我现在的版本是Spark 2.3.1 (Jun 08 2018)。去到下载文件夹，将文件移到home目录下并解压 $ cd Downloads $ mv spark-2.3.1-bin-hadoop2.7.tgz ~/ $ tar -zxf spark-2.3.1-bin-hadoop2.7.tgz 3.声明一下环境变量 $ sud...

2018-09-04

640

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。