您现在的位置是:首页 > 文章详情

数据采集 & 流批一体计算工具 bboss v6.8.2 发布

日期:2023-02-23点击:304

数据采集ETL&流批一体化计算工具 bboss v6.8.2 发布。

bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理入库以及流批一体化数据指标统计计算处理功能。

v6.8.2功能改进

  1. FTP文件输入/输出插件改进:ftp/sftp协议增加socketTimeout配置,sftp协议增加connectionTimeout配置

  2. FTP输出插件改进:增加生成文件异常上传FTP机制,默认同步发送。数据量比较多,同时切割文件的情况下,启用异步发送文件,会显著提升数据采集同步性能

  3. 数据采集重大功能扩展:增加指标计算输出插件,提供流批一体指标统计计算功能,支持两种模式的指标计算:

1) 在采集和处理数据时,同时对数据进行大数据指标统计聚合计算,最终将加工后的数据和指标计算结果进行持久化处理

2)只对采集的数据进行指标计算,最终将指标计算结果进行持久化处理

可以将聚合计算结果保存的各种指标数据库:Eleasticsearch/Mongodb/HBase/Clickhouse/Doris/DB(Oracle、Mysql、postgresql、sqlserver等主流关系数据库)

工具可以灵活定制具备各种功能的数据采集统计作业

1) 只采集和处理数据作业

2) 采集和处理数据、指标统计计算混合作业

3) 采集数据只做指标统计计算作业

流批一体化指标计算特点

1) 支持时间维度和非时间维度指标计算

2) 时间维度指标计算:支持指定统计时间窗口,单位到分钟级别

3) 一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标key,支持有限基数key和无限基数key指标计算

4) 一个作业可以支持多种类型的指标,每种类型指标支持多个指标计算

5)支持准实时指标统计计算和离线指标统计计算

6)可以从不同的数据输入来源获取需要统计的指标数据,亦可以将指标计算结果保存到各种不同的目标数据源

数据增量采集特点

增量数据采集,默认基于sqlite数据库管理增量采集状态,可以配置到其他关系数据库管理增量采集状态,提供对多种不同数据来源增量采集机制:

1) 基于数字字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse等

2) 基于时间字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse、HBase等,基于时间增量还可以设置一个截止时间偏移量,比如采集到当前时间前十秒的增量数据,避免漏数据

3) 基于文件内容位置偏移量:文本文件、日志文件基于采集位置偏移量做增量

4) 基于ftp文件增量采集:基于文件级别,下载采集完的文件就不会再采集

 

数据采集&流批一体化处理使用指南

https://esdoc.bbossgroups.com/#/etl-metrics

 

原文链接:https://www.oschina.net/news/229576/bboss-6-8-2-released
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章