Flume数据导入ODPS方法

2016-07-26 770

一、简介

 Apache Flume是一个分布式的、可靠的、可用的系统，可用于从不同的数据源中高效地收集、聚合和移动海量日志数据到集中式数据存储系统。
 ODPS Sink是基于ODPS DataHub Service开发的Flume插件，可以将Flume的Event数据导入到ODPS中。插件兼容Flume的原有功能特性，支持ODPS表自定义分区、且可以自动创建分区。

二、环境要求
1、JDK(1.6以上，推荐1.7)
2、Flume-NG 1.x

三、插件部署
1、下载ODPS Sink插件并解压：aliyun-odps-flume-plugin
2、Flume-NG 1.x下载：https://flume.apache.org/download.html
(1)下载 apache-flume-1.6.0-bin.tar.gz
(2)下载apache-flume-1.6.0-src.tar.gz
3、Flume的安装
(1) 解压apache-flume-1.6.0-src.tar.gz和apache-flume-1.6.0-bin.tar.gz
(2) 将apache-flume-1.6.0-src中的文件复制到apache-flume-1.6.0-bin中
4、部署ODPS Sink插件：将文件夹odps_sink移动到Apache Flume安装目录下：
$ mkdir {YOUR_APACHE_FLUME_DIR}/plugins.d
$mv odps_sink/ { YOUR_APACHE_FLUME_DIR }/plugins.d/
移动后，核验ODPS Sink插件是否已经在相应目录：
$ ls { YOUR_APACHE_FLUME_DIR}/plugins.d
odps_sink
部署完成后，只需要在Flume的配置文件中将sink的type字段配置为:
com.aliyun.odps.flume.sink.OdpsSink
即可使用

四、配置示例
例：将日志文件中的结构化数据进行解析，并上传到ODPS表中
需要上传的日志文件格式如下（每行为一条记录，字段之间逗号分隔）:

test_basic.log

some,log,line1
some,log,line2
...
第一步、在ODPS 的 project创建ODPS Datahub表
建表语句如下所示：
CREATE TABLE hub_table_basic (col1 STRING, col2 STRING)

PARTITIONED BY (pt STRING)
INTO 1 SHARDS
HUBLIFECYCLE 1;

第二步、创建Flume作业配置文件：
在Flume安装目录的conf/文件夹下创建名为odps_basic.conf的文件，并输入内容如下：

odps_basic.conf

A single-node Flume configuration for ODPS

Name the components on this agent

a1.sources = r1
a1.sinks = k1
a1.channels = c1

Describe/configure the source

a1.sources.r1.type = exec
a1.sources.r1.command = cat {YOUR_LOG_DIRECTORY}/test_basic.log

Describe the sink

a1.sinks.k1.type = com.aliyun.odps.flume.sink.OdpsSink
a1.sinks.k1.accessID = {YOUR_ALIYUN_ODPS_ACCESS_ID}
a1.sinks.k1.accessKey = {YOUR_ALIYUN_ODPS_ACCESS_KEY}
a1.sinks.k1.odps.endPoint = http://service.odps.aliyun.com/api
a1.sinks.k1.odps.datahub.endPoint = http://dh.odps.aliyun.com
a1.sinks.k1.odps.project = {YOUR_ALIYUN_ODPS_PROJECT}
a1.sinks.k1.odps.table = hub_table_basic
a1.sinks.k1.odps.partition = 20150814
a1.sinks.k1.batchSize = 100
a1.sinks.k1.serializer = DELIMITED
a1.sinks.k1.serializer.delimiter = ,
a1.sinks.k1.serializer.fieldnames = col1,,col2
a1.sinks.k1.serializer.charset = UTF-8
a1.sinks.k1.shard.number = 1
a1.sinks.k1.shard.maxTimeOut = 60
a1.sinks.k1.autoCreatePartition = true

Use a channel which buffers events in memory

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

Bind the source and sink to the channel

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

第三步：启动Flume
启动Flume并指定agent的名称和配置文件路径，-Dflume.root.logger=INFO,console选项可以将日志实时输出到控制台。
$ cd { YOUR_APACHE_FLUME_DIR}
$ bin/flume-ng agent -n a1 -c conf -f conf/odps_basic.conf -Dflume.root.logger=INFO,console
写入成功，显示日志如下：
...
Write success. Event count: 2
...
在ODPS Datahub表中即可查到数据；

多数据源上传到ODPS
多个数据上传到odps，只需要配置对应的source和channel,可以有一下几种上传方式：
(1) 多个source和一个channel和一个sink

(2) 多个source和多个channel和一个sink

(3) 多个source,多个channel和多个sink,输出到多个地方存储

(4)多个agent的复杂情况：

下面给出(1)中情况的配置：

odps_basic.conf

A single-node Flume configuration for ODPS

Name the components on this agent

a1.sources = r1 r2
a1.sinks = k1
a1.channels = c1

Describe/configure the source

a1.sources.r1.type = exec
a1.sources.r1.command = cat {YOUR_LOG_DIRECTORY}/test_basic.log

source2的配置

a1.sources.r2.type = exec
a1.sources.r2.command = cat {YOUR_LOG_DIRECTORY}/test_basic2.log

Describe the sink

a1.sinks.k1.type = com.aliyun.odps.flume.sink.OdpsSink
a1.sinks.k1.accessID = {YOUR_ALIYUN_ODPS_ACCESS_ID}
a1.sinks.k1.accessKey = {YOUR_ALIYUN_ODPS_ACCESS_KEY}
a1.sinks.k1.odps.endPoint = http://service.odps.aliyun.com/api
a1.sinks.k1.odps.datahub.endPoint = http://dh.odps.aliyun.com
a1.sinks.k1.odps.project = {YOUR_ALIYUN_ODPS_PROJECT}
a1.sinks.k1.odps.table = hub_table_basic
a1.sinks.k1.odps.partition = 20150814
a1.sinks.k1.batchSize = 100
a1.sinks.k1.serializer = DELIMITED
a1.sinks.k1.serializer.delimiter = ,
a1.sinks.k1.serializer.fieldnames = col1,,col2
a1.sinks.k1.serializer.charset = UTF-8
a1.sinks.k1.shard.number = 1
a1.sinks.k1.shard.maxTimeOut = 60
a1.sinks.k1.autoCreatePartition = true

Use a channel which buffers events in memory

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

Bind the source and sink to the channel

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

source2的channel

a1.sources.r2.channels = c2

可能遇到的问题：
1、在数据sink阶段报错，数据无法传递

这个错误是由于数据的最上面加了一行注释，它默认读取改行导致数据的行数与配置文件中配置的行数不一致，所以报上面这个错，删出上面的注释行问题就解决了。

2、OOM 问题：
flume 报错：
java.lang.OutOfMemoryError: GC overhead limit exceeded
或者：
java.lang.OutOfMemoryError: Java heap space
Exception in thread "SinkRunner-PollingRunner-DefaultSinkProcessor" java.lang.OutOfMemoryError: Java heap space
Flume 启动时的最大堆内存大小默认是 20M，线上环境很容易 OOM，因此需要你在 flume-env.sh 中添加 JVM 启动参数:

JAVA_OPTS="-Xms8192m -Xmx8192m -Xss256k -Xmn2g -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:-UseGCOverheadLimit"
然后在启动 agent 的时候一定要带上 -c conf 选项，否则 flume-env.sh 里配置的环境变量不会被加载生效

微信关注我们

原文链接：https://yq.aliyun.com/articles/58249

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop2.6.4 安装和编译

hadoop集群搭建 hadoop集群搭建 tools 网络规划设置静态ip 关闭防火墙创建用户配置主机映射开启ssh免密登录NameNode登录其他DataNode 安装java 配置环境变量安装hadoop 配置环境变量 Hadoop配置验证安装编译安装Hadoop 问题编译hadoop261需要的软件安装maven 安装protobuf 安装ant 编译安装hadoop 可能错误错误1 错误2 错误3 错误4 开发 eclipse插件连接出现错误测试 tools： SecureCRT8.0 VMware12 RHEL 6.6 x64 网络规划： hadoop0 192.168.248.150 hadoop1 192.168.248.151 hadoop2 192.168.248.152 hadoop3 192.168.248.153 设置静态ip： sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0 IPADDR=192.168.248.15? 如果网络不行（由于虚拟机克隆）检查/etc/udev/rul...

2016-07-25

868

当前emr最新版本2.0.1没有impala组件，需要额外安装。本文介绍如何在emr 2.0.1版本上用E-MapReduce软件配置功能修改hdfs配置，引导操作安装impala 2.5.0 for cdf 5.7.1版本，shell作业来启动impala的完整过程。软件配置 impala对hdfs组件的配置有要求，需要用软件配置功能修改hdfs的配置。软件配置功能可以修改hadoop组件的配置，详见：帮助文档本地创建一个hdfs.json文件，可以直接从oss下载,内容如下，通过oss控制台上传到oss合适位置.例如[yourbucket]/sh/hdfs.json。 { "configurations": [ { "classification": "hdfs-s

2016-07-26

688

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

Flume数据导入ODPS方法

test_basic.log

odps_basic.conf

A single-node Flume configuration for ODPS

Name the components on this agent

Describe/configure the source

Describe the sink

Use a channel which buffers events in memory

Bind the source and sink to the channel

odps_basic.conf

A single-node Flume configuration for ODPS

Name the components on this agent

Describe/configure the source

source2的配置

Describe the sink

Use a channel which buffers events in memory

Bind the source and sink to the channel

source2的channel

hadoop2.6.4 安装和编译

用引导操作给E-MapReduce集群安装impala

相关文章

发表评论

资源下载

Mario

Nacos

Sublime Text

WebStorm

欢迎您来访！