数据到hadoop的迁移
最近在用flume和sqoop来做非关系数据(日志)和关系数据(MYSQL)迁移到hdfs的工作,简单记录下使用过程,以此总结
一 flume的使用
使用flume把web的log日志数据导入到hdfs上
步骤
1 在 elephant 节点上
先安装flume sudo yum install --assumeyes flume-ng
2 创建配置文件
vi /etc/hadoop/conf/flume-conf.properties
tail1.sources = src1
tail1.channels = ch1
tail1.sinks = sink1
tail1.sources.src1.type = exec
tail1.sources.src1.command = tail -F /tmp/access_log
tail1.sources.src1.channels = ch1
tail1.channels.ch1.type = memory
tail1.channels.ch1.capacity = 500
tail1.sinks.sink1.type = avro
tail1.sinks.sink1.hostname = localhost
tail1.sinks.sink1.port = 6000
tail1.sinks.sink1.batch-size = 1
tail1.sinks.sink1.channel = ch1
##
collector1.sources = src1
collector1.channels = ch1
collector1.sinks = sink1
collector1.sources.src1.type = avro
collector1.sources.src1.bind = localhost
collector1.sources.src1.port = 6000
collector1.sources.src1.channels = ch1
collector1.channels.ch1.type = memory
collector1.channels.ch1.capacity = 500
collector1.sinks.sink1.type = hdfs
collector1.sinks.sink1.hdfs.path = flume/collector1
collector1.sinks.sink1.hdfs.filePrefix = access_log
collector1.sinks.sink1.channel = ch1
配置文件说明结构是
src取日志数据,通过内存传送到本地以avro文件格式保存,做中转,然后从avro文件,通过内存传送到hdfs上。hdfs保存路径是flume/collector1,
3 在hfds上创建保存目录
hadoop fs -mkdir -p flume/collector1
4 模拟产生大量日志文件,在log目录中
$ accesslog-gen.bash /tmp/access_log
5 启动日志收集器
flume-ng agent --conf /etc/hadoop/conf/ \
--conf-file /etc/hadoop/conf/flume-conf.properties \
--name collector1
6 启动日志采集器
$ flume-ng agent \
--conf-file /etc/hadoop/conf/flume-conf.properties \
--name tail1
二 sqoop的使用
使用sqoop把mysql中的表数据导入到hdfs
1安装sqoop
sudo yum install --assumeyes sqoop
2在sqoop的lib下创建一个mysql连接的驱动链接,也就是在sqoop的lib下面能找到mysql的驱动包
就是在/usr/lib/sqoop/lib目录,创建 $ sudo ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/sqoop/lib/
3导入数据
sqoop help
用sqoop查看mysql中有哪些数据库
sqoop list-databases \
--connect jdbc:mysql://localhost \
--username training --password training
再看看库里有哪些表
sqoop list-tables \
--connect jdbc:mysql://localhost/movielens \
--username training --password training
开始导入命令表movie到hdfs,表中字段的数据用tab分割
sqoop import \
--connect jdbc:mysql://localhost/movielens \
--table movie --fields-terminated-by '\t' \
--username training --password training
4验证
hadoop fs -ls movie
hadoop fs -tail movie/part-m-00000
可以看到数据已文件形式保存到hdfs

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
elkstack安装
Elasticsearch 是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制, restful风格接口,多数据源,自动搜索负载等。 Logstash 是一个完全开源的工具,他可以对你的日志进行收集、分析,并将其存储供以后使用(如,搜索)。 kibana 也是一个开源和免费的工具,他 Kibana 可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮助您汇总、分析和搜索重要数据日志 elk安装步骤: 获取软件: https://www.elastic.co/ 下载三个包: logstash Elasticsearch Kibana 我的安装环境: Elasticsearch:192.168.1.220 192.168.1.221 做一个集群 logstash:192.168.1.199 192.168.1.188 运行nginx Kibana:192.168.1.188 1.安装jdk环境1.8 yum remove java-1.7.0 yum install java-1.8.0-openjdk....
- 下一篇
高可用Hadoop平台-Oozie工作流之Hadoop调度
1.概述 在《高可用Hadoop平台-Oozie工作流》一篇中,给大家分享了如何去单一的集成Oozie这样一个插件。今天为大家介绍如何去使用Oozie创建相关工作流运行与Hadoop上,已经在创建过程当中需要注意的事项,下面是今天的分享目录: Oozie简介 任务工作流 截图预览 下面开始今天的内容分享。 2.Oozie简介 在Oozie中有几个重要的概念,他们分别是: WorkFlow:工作流,控制工作流的开始和结束过程,以及工作流Job的执行路径,并提供一种机制来控制工作流执行路径(比如:Decision、Fork以及Join节点等),其书写方式如下所示: <workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.1"> ... 省略详细内容 ... </workflow-app> Coordinator:多个WorkFlow可以组成一个Coordinator,可以把前几个WorkFlow的输出作为后一个WorkFlow的输入,当然也可以定义WorkFlow的触发条件,来做定时触发,其书写方...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS7设置SWAP分区,小内存服务器的救世主
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7