Docker镜像、Spark支持多表...Apache SeaTunnel 2.3.8版本将带来的惊喜
Apache SeaTunnel 2.3.8版本即将于大家见面,近日,Apache SeaTunnel PMC Member 范佳在社区的交流会上为大家提前透露了关于这个新版本即将进行的功能与特性更新概况,详细内容如下:
SeaTunnel 简介
SeaTunnel是一个高性能的开源分布式数据集成系统,支持各种数据源的实时流式和离线批处理,适用于海量数据的集成。它具有以下特点:
- 海量连接器:支持100+种数据源和存储系统。
- 多引擎支持:兼容多种数据处理引擎,包括SeaTunnel Zeta Engine、Spark和Flink。
- HTTP支持:可以通过HTTP接口进行数据集成。
- 流批一体:同时支持流处理和批处理。
- 流速控制:能够控制数据流的速率。
- 自动建表功能:自动根据数据结构创建表。
2.3.8 版本新功能与特性
在即将发布的2.3.8版本中,社区将对SeaTunnel进行以下功能和特性的更新:
Docker 镜像
新版本将提供官方版本的 Docker 镜像,将包含几乎所有的 Connector,用户无需下载安装包,通过直接通过拉取镜像,可以更快地运行 SeaTunnel,减轻 SeaTunnel 部署的复杂度。
- 通过命令构建镜像:对于本地部署,并且有定制化需求的用户,可以通过命令行构建镜像;
- 通过命令启动服务:支持通过命令启动服务进行分布式部署,以及提交任务和查询任务状态等;当然。也可以通过 rest-API 提交任务。
- 通过命令提交服务:
Spark 支持多表
目前,SeaTunnel 仅支持 Zeta Engine 对多表的支持,新版本将增加 Spark 引擎对多表的支持,可以自动识别并自动运行多表任务。
另外,Flink 对于多表的支持已经在推进之中,感兴趣的朋友欢迎来 GitHub 参与共建。
Config 参数支持默认值
目前,SeaTunnel 允许在 config 参数进行变量配置,但每个变量需要手动配置。新版本则将允许在配置参数中使用默认值,提高了配置的灵活性。
适配 Prometheus 进行集群监控
此前,SeaTunnel 提供了接口来获取任务运行的指标,新版本将支持适配 Prometheus 进行集群监控。Prometheus 将定期拉取 SeaTunnel 的集群任务状态,并以可视化界面展示出来,以更便利地监控集群的状态,及时发现问题。
Dashboard展示
添加 Embedding transform
通过 Embedding transform,支持将机器学习模型嵌入到数据转换过程中,把原始字段转换成向量值,再存储到相应的机器学习数据库。目前,SeaTunnel 支持的机器学习模型提供商包括豆包、千帆、OpenAI。
Job 级别日志过滤查看
增加了Job级别的日志过滤和查看功能,可以通过三种方式实现日志过滤。
第一种是通过把 Job ID 打印到日志的最前面,用户可以通过搜索 Job ID 来找到属于此 Job 的所有日志,这样可以把日志过滤出来,解决当多任务并发时,一旦其中一项任务出错,通过日志来排查问题相对比较困难的难题。
第二种是根据 Job ID 拆分文件,通过修改 log 配置文件,很多文件都是配置好的,只需要简单修改,任务就会在每一个 Job 打一个日志文件。相同的 Job ID 会被归类到同一个文件下,这样就方便大家查找日志文件。
修改log4j2.properties
配置文件示例:
... rootLogger.appenderRef.file.ref = routingAppender ... appender.file.layout.pattern = %d{yyyy-MM-dd HH:mm:ss,SSS} %-5p [%-30.30c{1.}] [%t] - %m%n ...
Kafka 支持读取/写入 Protobuf 类型数据
增强了 Kafka 连接器对 Protobuf 数据格式的支持,在 Kafka 连接器下增加对 Protobuf 数据类型的定义,进行数据读取和写入。
文件支持读取压缩包
增加了对压缩文件格式的读取支持,省去了解压缩的步骤。
其他功能
此外,新版本还将移除对系统表的过滤,允许用户读取系统表;增强对Paimon流式读取和动态桶写入的支持。
如何获取最新版本和参与贡献
下载
SeaTunnel 2.3.8 版本预计将于 10 月初发布,届时可关注 SeaTunnel 官网下载页面 获取最新版本的SeaTunnel。
参与贡献
-
邮件列表 通过发送邮件到 dev-subscribe@seatunnel.apache.org 订阅SeaTunnel开发邮件列表,参与社区讨论和发版投票。
-
GitHub 访问 Apache SeaTunnel GitHub 仓库 追踪社区最新动态,提交bug报告和功能请求。
结语
SeaTunnel 2.3.8 版本的发布将带来一系列新功能和改进,使得数据集成更加高效和灵活。感谢所有贡献者的努力,让 SeaTunnel 成为一个更加强大的数据集成工具。
更多信息请访问 SeaTunnel 官网。
本文由 白鲸开源科技 提供发布支持!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
协作创新引领未来:”内源峰会2024深圳“颁奖仪式全解析
作者: 谭中意 在技术革新的浪潮中,InnerSource Asia Summit 2024 颁奖仪式为那些在内源实践中表现卓越的企业与团队提供了一个展示的舞台。本文将为您详细介绍峰会的颁奖环节,包括评奖的初衷、流程、颁奖类别和维度要求,以及最终的获奖结果。 颁奖初衷 内源峰会的颁奖仪式旨在表彰那些在内源实践中取得显著成就的企业,鼓励技术创新,推动企业内部的技术共享与协作,从而促进整个行业的健康发展。 评奖流程 1. 提名阶段:由行业专家、峰会组委会提名候选企业。 2. 评审阶段:由InnerSource Commons基金会三名中国成员(Jerry,Willem,Ada)组成的评审团对提名企业进行综合评估。 3. 报备阶段:评审结果发给InnerSource Commons基金会官方进行报备存档。 4. 颁奖仪式:在9月21日峰会现场举行颁奖仪式,对获奖企业进行表彰。 颁奖类别与维度要求 内源创新奖:即“InnerSource Commons China Innovation Award 2024“ 表彰那些在内源实践中展现出创新精神和显著成效的企业。 内源卓越奖:即“In...
- 下一篇
程序员的匆匆岁月,下一阶段是?
为了迎接 1024 程序员节,OSChina 开源中国新增了【家里有个程序员】栏目,记录一下 OSCer 们当前的生活,欢迎各位 OSCer 踊跃投稿呀。 投稿细则:https://my.oschina.net/u/3859945/blog/15727245 入这行已经十年了,我是师范类的计算机专业,同学也多数入行了教师职业,这也是毕业时我艰难择业的原因之一。 是稳妥地做一名教师,还是继续在计算机专业上深耕,让我纠结了很久。直到我考上了教师,踏入了校门,才发现自己还是喜欢在外面工作。至于为什么要考上了才发现,可能是心理作祟,就像一些水果,看着艳丽,吃到嘴里却不是自己憧憬的味道。最终我向教育局提交了辞职申请。 来到深圳找工作也并不顺利,并没有进入到我理想的企业,但我没有后悔辞职,相信可以慢慢积累、提高,找到理想的工作。好在那时年少,一切都不晚,没有因为前途的迷雾而退却。现在感觉做一切事情都需要好的心性,错过了正确的年纪才是最可怕的。 来到这家做仓储物流的公司后,我的编程生涯进入了正轨。那些年的双十一真是火爆啊,我们这些不爱购物的程序员们必须跟着熬夜,确保系统的正常使用。如果出一点...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7