您现在的位置是:首页 > 文章详情

数据采集 ETL 工具 Elasticsearch-datatran v6.3.6 发布

日期:2021-10-18点击:524

数据采集ETL工具 Elasticsearch-datatran v6.3.6 发布,本版本提供大家期待已久的记录切割功能ftp文件下载采集功能

Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据处理清洗和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据同步;支持本地/ftp日志文件实时增量采集到kafka/elasticsearch/database

Elasticsearch版本兼容性:支持各种Elasticsearch版本(1.x,2.x,5.x,6.x,7.x,+)之间相互数据迁移

v6.3.6 变更记录

  1. 数据同步改进:增加记录切割功能,可以将指定的字段拆分为多条新记录,新产生的记录会自动继承原记录其他字段数据,亦可以指定覆盖原记录字段值
  2. 数据同步功能:扩展filelog插件,增加对ftp日志文件下载采集支持,支持实时监听下载ftp目录下生成的日志文件,将ftp文件中的数据采集写入elasticsearch、数据库、推送kafka、写入新的日志文件,参考案例: FtpLog2ESETLScheduleDemo.java FtpLog2ESDemo

  1. 数据同步功能:支持备份采集完毕日志文件功能,可以指定备份文件保存时长,定期清理超过时长文件

  2. 数据同步功能:提供自定义处理采集数据功能,可以自行将采集的数据按照自己的要求进行处理到目的地,支持数据来源包括:database,elasticsearch,kafka,mongodb,hbase,file,ftp等,想把采集的数据保存到什么地方,有自己实现CustomOutPut接口处理即可

 FileLog2DummyExportBuilder importBuilder = new FileLog2DummyExportBuilder(); //自己处理数据 importBuilder.setCustomOutPut(new CustomOutPut() { @Override public void handleData(TaskContext taskContext, List<CommonRecord> datas) { //You can do any thing here for datas for(CommonRecord record:datas){ Map<String,Object> data = record.getDatas(); logger.info(SimpleStringUtil.object2json(data)); } } });

自定义处理采集数据功能典型的应用场景就是对接大数据流处理,直接将采集的数据交给一些流处理框架,譬如与我们内部自己开发的大数据流处理框架对接,效果简直不要不要的,哈哈。

采集日志文件自定义处理案例

bboss数据采集ETL案例大全

https://esdoc.bbossgroups.com/#/bboss-datasyn-demo

原文链接:https://www.oschina.net/news/164691/es-datatran-6-3-6-released
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章