Apache NiFi之MySQL数据同步到HBase

2019-08-07 1162

一.说明

将Apache NiFi做为关系型数据与非关系型数据库的数据同步工具使用，在此场景中需要将mysql导出的avro数据格式转化为json入库HBase

二.开拔

Ⅰ).配置ExecuteSQLRecord

a).选择ExecuteSQLRecord

在Processor中搜索ExecuteSQLRecord

b).配置ExecuteSQLRecord

1.创建Database Connection Pool
2.创建JsonRecordSetWriter
3.配置SQL select query

select Host,User,authentication_string from mysql.user;

c).创建DBCPConnectionPool

在Database Connection Pool中选择DBCPConnectionPool

d).配置DBCPConnectionPool

1.Database Connection URL: jdbc:mysql://hostname:3306/druid
2.Database Driver Class Name: com.mysql.jdbc.Driver
3.Database User: username
4.Database Password: password

e).激活服务

Ⅱ).配置ConvertAvroToJSON

a).选择ConvertAvroToJSON

在Processor中搜索ConvertAvroToJSON

b).配置ConvertAvroToJSON

Ⅲ).配置SplitJson

a).选择SplitJson

在Processor中搜索SplitJson

b).配置SplitJson

Ⅳ).配置PutHBaseJSON

a).选择PutHBaseJSON

在Processor中搜索PutHBaseJSON

b).配置PutHBaseJSON

1.HBase Client Service：选择匹配版本的HBaseClient
2.Table Name：配置入库HBase表名
3.Row Identifier Field Name：配置RowKey值
4.Column Family: 配置列簇

c).选择HBase_1_1_2_ClientService

在Processor中搜索HBase_1_1_2_ClientService

d).配置HBase_1_1_2_ClientService

1.Zookeeper Quorum: hostname1:2181,hostname2:2181,hostname3:2181
2.Zookeeper Client Port: 2181
3.Zookeeper ZNode Parent: /hbase

e).激活HBase_1_1_2_ClientService

Ⅴ).配置LogAttribute

Ⅵ).启动服务

可以点击选择单个Processor启动，也可以在空白处点击流程启动

Ⅶ).验证结果

a).MySQL源数据

select * from druid.druid_datasource;

b).HBase入库数据

scan 'druid.druid_datasource',{LIMIT=>10}

三.HBase命令

## 创建表空间
create_namespace 'druid'

## 查看表空间
list_namespace_tables 'druid'

## 创建表
create 'druid.druid_datasource','cf1'

## 查看表数据
scan 'druid.druid_datasource',{LIMIT=>10}

四.MySQL数据库驱动问题

a).解决方案一

将mysql驱动包放到nifi按照目录的lib中，重启nifi；如图中无需配置：Database Driver Location(s)项

b).解决方案二

如图配置：Database Driver Location(s)项，则驱动包可放在任何可访问的地址，无需重启nifi

微信关注我们

原文链接：https://yq.aliyun.com/articles/713179

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Apache NiFi之Kafka流数据到HBase

一.说明在大数据平台的业务场景中，处理实时kafka数据流数据，以成为必要的能力；此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase 二.开拔 Ⅰ).配置ConsumeKafka_0_10 测试使用了kafka0.10版本，所以NiFi中也选择对于版本 a).选择ConsumeKafka_0_10 在Processor中搜索ConsumeKafka_0_10 b).配置ConsumeKafka_0_10 1.Kafka Brokers: hostname1:9092,hostname2:9092:hostname3:90922.Topic Name(s): entry_index_nifi3.Group ID: entry_index_nifi Ⅱ).配置PutHBaseJSON a).选择PutHBaseJSON 在Processor中搜索PutHBaseJSON b).配置PutHBaseJSON 1.HBase Client Service：选择匹配版本的HBaseClient2.Table Name：配置入库HBase表名3.Row Ide...

2019-08-06

967

作者|白松关于Giraph 共有九个章节，本文第五个章节。环境：在单机上（机器名：giraphx）启动了2个workers。输入：SSSP文件夹，里面有1.txt和2.txt两个文件。 1、在Worker向Master汇报健康状况后，就开始等待Master创建InputSplit。方法：每个Worker通过检某个Znode节点是否存在，同时在此Znode上设置Watcher。若不存在，就通过BSPEvent的waitForever()方法释放当前线程的锁，陷入等待状态。一直等到master创建该znode。此步骤位于BSPServiceWorker类中的startSuperStep方法中，等待代码如下： 2、Master调用createInputSplits()方法创建InputSplit。在generateInputSplits()方法中，根据用户设定的VertexInputFormat获得InputSplits。代码如下：其中minSplitCountHint为创建split的最小数目，其值如下： minSplitCountHint = Workers数目 * NUM_...

2019-08-07

637

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。