Elasticsearch-datatran v6.1.0 发布,Elasticsearch 数据同步工具
Elasticsearch 数据同步工具 Elasticsearch-datatran 6.1.0 发布,Elasticsearch-datatran 是由 bboss 开源的一款将各种数据源中的海量数据同步到 Elasticsearch 的高效数据同步工具。
v6.1.0功能改进
-
如果在程序里面配置的增量字段类型发生改变,要把增量状态表对应的类型调整为最新的字段类型
设置了类型后,就按照类型来,不再按照设置的日期和数字字段名称来区分:
增加setLastValueColumn方法,废弃setDateLastValueColumn和setNumberLastValueColumn两个方法
-
DB-DB数据同步工具:增加在作业中直接指定sql语句的功能
-
修复数据同步bug:数据库到数据库跨库同步无效
-
可以通过ImportBuilder组件设置geoip数据库地址,使用案例:
importBuilder.setGeoipDatabase("E:/workspace/hnai/terminal/geolite2/GeoLite2-City.mmdb"); importBuilder.setGeoipAsnDatabase("E:/workspace/hnai/terminal/geolite2/GeoLite2-ASN.mmdb");
5.数据同步增加db-db数据同步spring boot案例工程:
https://github.com/bbossgroups/db-db-job
Elasticsearch-datatran功能特点
1.支持多种数据源之间的数据同步
- 数据库表数据同步到Elasticsearch
- 数据库表数据同步到数据库表
- Elasticsearch数据同步到数据库表
- Elasticsearch数据同步到Elasticsearch
- Mongodb数据同步到Elasticsearch
- Mongodb数据同步到数据库表
- 从Kafka接收数据并导入Elasticsearch
- 增删改数据同步到elasticsearch
- HBase数据同步到Elasticsearch
2.支持增删改数据同步
3.支持多种数据导入方式
- 批量数据导入
- 批量数据多线程并行导入
- 定时全量(串行/并行)数据导入
- 定时增量(串行/并行)数据导入
4.支持的数据库和消息中间件类型
数据库: mysql,maridb,postgress,oracle ,sqlserver,db2,tidb,hive,mongodb、HBase、elasticsearch、达梦等
消息中间件:kafka 1x,kafka 2x
5.Elasticsearch版本兼容性
Elasticsearch 1.x,2.x,5.x,6.x,7.x,+
6.支持海量PB级数据同步导入Elasticsearch
7.支持将ip转换为对应的运营商/省份城市/经纬度坐标位置信息
8.支持设置数据bulk导入任务结果处理回调函数,对每次bulk任务的结果进行成功和失败反馈,然后针对失败的bulk任务通过error和exception方法进行相应处理
9.支持多种定时任务执行引擎
- jdk timer (内置)
- quartz
- xxl-job分布式调度引擎,基于分片调度机制实现海量数据快速同步能力
10.基于java语言开发和发布数据同步作业
bboss elasticsearch数据同步工具另一个显著的特色就是直接基于java语言来编写数据同步作业程序,基于强大的java语言和第三方工具包,能够非常方便地加工和处理需要同步的源数据,然后将最终的数据保存到目标库(Elasticsearch或者数据库);同时也可以非常方便地在idea或者eclipse中调试和运行同步作业程序,调试无误后,通过bboss提供的gradle打包构建脚本,即可发布出可部署到生产环境的同步作业包。
11.支持两种作业运行方式
- 嵌入到应用中运行,基于quartz和jdk timer调度的作业都可以运行在这种模式下,参考文档:spring boot运行案例
- 独立发布包运行,基于quartz和xxl-job,jdk timer调度的作业都可以运行在这种模式下,参考文档:作业发布

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
架构设计 | 分布式业务系统中,全局ID生成策略
一、全局ID简介 在实际的开发中,几乎所有的业务场景产生的数据,都需要一个唯一ID作为核心标识,用来流程化管理。比如常见的: 订单:order-id,查订单详情,物流状态等; 支付:pay-id,支付状态,基于ID事务管理; 如何生成唯一标识,在普通场景下,一般的方法就可以解决,例如: import java.util.UUID; public class UuidUtil { public static String getUUid() { UUID uuid = UUID.randomUUID(); return String.valueOf(uuid).replace("-",""); } } 这个方法可以解决绝大部分唯一ID需求的场景业务,但是网上各种UUID重复场景的描述帖,说的好像该API不好用。 絮叨一句:说一个真实使用的业务场景,大概是半年近3000万的数据流水,用的就是UUID的API,暂时未捕捉到ID重复的问题,仅供参考。 二、雪花算法 1、概念简介 Twitter公司开源的分布式ID生成算法策略,生成的ID遵循时间的顺序。 1为位标识,始终为0,不可用; 41位时...
- 下一篇
Flink SQL 的 9 个示例
作者:贺小令(晓令) 本文由阿里巴巴技术专家贺小令分享,社区志愿者郑仲尼整理。文章基于 Flink 1.9 版本,从用户的角度来讲解 Flink 1.9 版本中 SQL 相关原理及部分功能变更,希望对大家有所帮助。主要内容分享以下三个部分: TableEnvironment 的设计与使用场景 Catalog 的设计以及 DDL 实践 Blink Planner 的几点重要改进及优化 TableEnvironment FLIP-32 中提出,将 Blink 完全开源,合并到 Flink 主分支中。合并后在 Flink 1.9 中会存在两个 Planner:Flink Planner 和 Blink Planner。 在之前的版本中,Flink Table 在整个 Flink 中是一个二等公民。而 Flink SQL 具备的易用性、使用门槛低等特点深受用户好评,越来越被重视,Flink Table 模块也因此被提升为一等公民。而 Blink 在设计之初就考虑到流和批的统一,批只是流的一种特殊形式,所以可以用同一个TableEnvironment来表述流和批。 TableEnvironmen...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- Mario游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6