高可用Hadoop平台－实战尾声篇

2016-04-18 626

1.概述

　　今天这篇博客就是《高可用Hadoop平台》的尾声篇了，从搭建安装到入门运行 Hadoop 版的 HelloWorld（WordCount 可以称的上是 Hadoop 版的 HelloWorld ），在到开发中需要用到的各个套件以及对套件的安装使用，在到 Hadoop 的实战，一路走来我们对在Hadoop平台下开发的基本流程应该都熟悉了。今天我们来完成在高可用Hadoop平台开发的最后一步，导出数据。

2.导出数据目的

　　首先，我来说明下为什么要导出数据，导出数据的目的是为了干嘛？

　　我们都知道，我们当初统计这些数据的目标，就是为了来可视化这些数据结果；虽然结果我们是统计出来储存在 HDFS 上，但是，前段同学需要拿到这些数据，直接操作 HDFS 读取统计结果，这样的做法是不明智的，撇开安全性不说，时延就是一个很大的问题。所以，这里我们需要有一个步骤去完成数据的导出，将数据导出到 Mysql 之类的关系型数据库。这里我们用到的导出套件是Sqoop。

3.Sqoop

3.1安装包

　　sqoop 下载地址

3.2配置

　　打开配置环境文件：

sudo vi /etc/profile

编辑 Sqoop 的环境，内容如下所示：

export SQOOP_HOME=/home/hadoop/sqoop-1.4.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZK_HOME/bin:$HIVE_HOME/bin:$SQOOP_HOME/bin

3.3sqoop-env.sh

　　变动内容如下：

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/hadoop/hadoop-2.6.0

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/hadoop/hadoop-2.6.0

#set the path to where bin/hbase is available
#export HBASE_HOME=

#Set the path to where bin/hive is available
export HIVE_HOME=/home/hadoop/hive-0.14.0

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=

　注：这里使用 Sqoop 自带的 ZooKeeper ，另外由于没有使用到 HBase ，故这里未配置 HBase 的路径指向。

3.4异常

　　Streaming result set com.mysql.jdbc.RowDataDynamic@12e9d40f is still active

　　执行sqoop脚本时，出现这个异常是因为mysql的驱动的原因，使用最新的mysql驱动包。

　　解决方案：

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.32.tar.gz

　　然后解压到sqoop目录的lib目录下，重新执行脚本正常。

　　至此，sqoop的安装配置以及使用到此完成。

4.导出流程

　　流程图如下所示：

　　将hive数据库的TBLS表导入到hdfs，命令内容如下：

sqoop import 
--connect jdbc:mysql://10.211.55.26:3306/hive  
--username root 
--password root 
--table TBLS 
--fields-terminated-by '\t'

　这里 JDBC 的链接地址指向 Mysql 库的链接地址。

　　注：--fields-terminated-by '\t' 以tab分割

　　--null-string '**' 将null用**替代（--是sqoop保留字符，不能使用）

　　-m 1 指定一个map任务

　　将hdfs上的文件导入到mysql数据库：

sqoop export 
-D sqoop.export.records.per.statement=100 
--connect jdbc:mysql://10.211.55.26:3306/sqoop  
--username root 
--password root 
--table portal 
--fields-terminated-by ',' 
--export-dir "/home/hive/warehouse/logdfs_${yesterday}" 
--batch --update-key date,appkey 
--update-mode allowinsert;

　接下来，在我们导出数据成功后，我们可以将临时使用 hive 统计的结果表删除，若资源充足，我们可以保留最近 7 天的统计结果。

　　删除脚本命令如下所示：

hive -e "drop table pv_${yesterday};drop table reguser_${yesterday};drop table ip_${yesterday};drop table jumper_${yesterday};drop table logdfs_${yesterday};"

5.总结

　　在导出的时候，我们需要注意导出字段的分隔符，导出到目的地表名是否存在，书写导出命令是否正确。在导出异常时，根据具体的异常信息做相应的处理。

6.结束语

　　《高可用Hadoop平台》系列就和大家分享到这里，这一系列文章给对Hadoop方面感兴趣，以及打算从事Hadoop方面工作的人一点点帮助，大家在研究的过程当中若是有什么问题，可以加群讨论或是发送邮件给我，我会尽我所能为您解答，与君共勉！

微信关注我们

原文链接：https://yq.aliyun.com/articles/31011

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

高可用Hadoop平台－答疑篇

1.概述这篇博客不涉及到具体的编码，只是解答最近一些朋友心中的疑惑。最近，一些朋友和网友纷纷私密我，我总结了一下，疑问大致包含以下几点：我学 Hadoop 后能从事什么岗位？在遇到问题，我该如何去寻求解决方案？针对以上问题，我在这里赘述下个人的经验，给即将步入 Hadoop 行业的同学做个参考。 2.我学 Hadoop 后能从事什么岗位目前 Hadoop 相关的工作大致分为三类：应用，运维，二次开发 2.1应用这方面的主要工作是编写MapReduce作业，利用Hive之类的套件来进行数据分析或数据挖掘，Hadoop在这里只是一个基础平台，仍然是需要自己编写相应的逻辑去实现对应的业务。从事这方面的工作，你至少要懂一门编程语言，如Java，Shell，Python等。由于Hadoop的源码是用Java语言编写的，目前业界Java方面的Hadoop社区活跃度相对较高，Shell和Python对应的活跃度较少。目前培训机构都是在这方面进行培养的比较多，你只需要对Hadoop的框架构造，基本的组织结构有所了解，理解MapReduce的编程框架和模式，懂得代码调优，能够使用Hadoop...

2016-04-18

648

1.概述今天继续《高可用的Hadoop平台》系列，今天开始进行小规模的实战下，前面的准备工作完成后，基本用于统计数据的平台都拥有了，关于导出统计结果的文章留到后面赘述。今天要和大家分享的案例是一个基于电商网站的用户行为分析，这里分析的指标包含以下指标：统计每日PV 每日注册用户每日IP 跳出用户其他指标可以参考上述4个指标进行拓展，下面我们开始今天的分析之旅。 2.流程首先，在开发之前我们需要注意哪些问题？我们不能盲目的按照自己的意愿去开发项目，这样到头来得不到产品的认可，我们的工作又得返工。下面结合自身的工作，说说开发的具体流程：需求产生过程及遇到问题和注意事项产品组提出：报表需求＋日志规范报表研发流程（数据处理流程）：网络日志（一般有专门的节点来存储日志）=>pull（拉取日志）=>本地存储（数据组可操作的服务器节点）=>预处理（清洗或过滤，存入到hive表）=>HDFS文件系统数据存储（统计的结果都存放在HDFS文件系统中）=>导出（将统计结构导出）=>Mysql数据库存储（或其他数据库，供前端人员展示）在日志拉取过程，所欲问...

2016-04-18

519

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。