您现在的位置是:首页 > 文章详情

用DolphinScheduler轻松实现Flume数据采集任务自动化!

日期:2024-04-24点击:8

file

转载自天地风雷水火山泽

目的

因为我们的数仓数据源是Kafka,离线数仓需要用Flume采集Kafka中的数据到HDFS中。 在实际项目中,我们不可能一直在Xshell中启动Flume任务,一是因为项目的Flume任务很多,二是一旦Xshell页面关闭Flume任务就会停止,这样非常不方便,因此必须在后台启动Flume任务。 所以经过测试后,我发现海豚调度器也可以启动Flume任务。 file

海豚调度Flume任务配置

(一)Flume在Linux中的路径 file

(二)Flume任务文件在Linux中的位置以及任务文件名 file

(三)在海豚中配置运行脚本 file

#!/bin/bash source /etc/profile /usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties 

注意:/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装,根据自己安装路径进行调整 (四)海豚任务配置好后就可以启动海豚任务 file

(五)在HDFS对应文件夹中验证是否采集到数据 file 可以看到,Flume采集Kafka数据成功写入到HDFS中,成功实现用Apache DolphinScheduler执行Flume任务的目的!
原文链接: https://blog.csdn.net/tiantang2renjian/article/details/136399112

本文由 白鲸开源科技 提供发布支持!

原文链接:https://my.oschina.net/dailidong/blog/11054634
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章