从独立开发者到成为SeaTunnel社区的贡献者,我做对了哪些事儿?
个人介绍
大家好,我是闫成雨,目前是一名独立开发者。专注于数据开发、机器学习、资源调度算法和分布式系统。
GitHub ID: CheneyYin
为社区做了哪些贡献
- 加强了Spark引擎和Flink引擎对SeaTunnel数据类型的支持。
- 修复了一些Spark引擎转换层的BUG。
- 完善了Assert连接器支持的数据类型。
- 修复了一些CI相关的BUG。
- 完善了一些文档。
贡献记录:https://github.com/apache/seatunnel/pulls?q=is%3Apr+author%3ACheneyYin+is%3Aclosed
初识
在2022年到2023年期间,我一直在尝试开发一款类似于StreamSet和NiFi的可视化数据集成软件。
直到2023年3月左右,我完成了一个简陋的可视化数据集成软件Metal,并将其迁移到了我的GitHub仓库。尽管Metal功能简单,但它成功验证了设计思路和技术栈的可行性。
直到我阅读了发布在devops.dev社区的文章《The Evolution of Architecture from ETL to EtLT》,我才了解到许多关于数据集成的新观点,如小t的概念、使用通用计算引擎的局限性以及数据集成执行引擎的价值等等。
同时,这也是我首次接触到Apache SeaTunnel,它是建立在这些新理念之上的。在第一次尝试Apache SeaTunnel后,我毅然放弃了之前的方向,转而选择了活跃在SeaTunnel社区。
提交第一个PR
跟大家分享一下我第一次提PR的故事,早期的时候,在使用SeaTunnel的一次压测中,我注意到Spark引擎抛出了OOM(Out Of Memory)异常。
我首先复现了这个问题,然后进行了调试并定位了原因。发现是Spark转换层的TransformerProcessor
在内存中临时存储了输出结果,导致处理大数据量时堆内存不足。
在对问题进行深入分析并找到解决方案后,我向Apache SeaTunnel社区提交了我的第一个Issue(#4502),感兴趣的朋友可以去看看,在这个Issue中,我解释了问题的现象和原因,并提出了解决方案。随后,我提交了我的第一个PR(#4503)。
我的第一个PR从提交到合并仅用了4天,这显示了社区高效的反馈速度。但对我个人来说,这个过程充满了期待和漫长,特别是在CI环境出现异常导致测试无法通过时。
不过,社区的资深成员及时提供了帮助,最终成功合并了PR,所以你在初期参与贡献的时候,向资深的贡献者寻求帮助是至关重要的,而且大家都会乐于助人!但是也请注意不用太浪费别人的时间。
持续参与
在过去的一年里,我一直积极参与社区活动,阅读技术大咖们的分享内容,关注并回复社区的Issue,同时持续跟踪Pull Request列表。
另外,我也为社区做出了一些代码贡献。
例如:
- 为Spark引擎添加了对SeaTunnel的Time类型的支持(#5188)
- 为Flink引擎增加了可配置precision和scale的Decimal类型支持(#5419)
- 增强了Hocon风格的泛型声明(#6187)
- 完善了Assert连接器覆盖全部数据类型(#6275)
这些Pull Request大多旨在改善用户的使用体验。
社区留给我的印象
我对Apache SeaTunnel社区的第一印象是热情而活跃。社区对Issue和Pull Request的反馈速度很快,同时也对新的贡献者非常友好和耐心,使得新贡献者能够轻松快速地参与进来。
未来的期望
希望社区能够进一步壮大,吸引更多开发者共推SeaTunnel发展。愿SeaTunnel用户群持续扩大,让更多人享受其便捷的数据集成解决方案。期望用户体验不断提升,SeaTunnel在稳定性上取得新突破。
同时,希望SeaTunnel的文档更详尽完善,提供全面且清晰的使用指南和技术文档,以便用户快速上手和解决问题。
本文由 白鲸开源科技 提供发布支持!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
解锁高效创新:IPD策略如何重塑产品开发流程
IPD(集成产品开发)涵盖了产品从创意提出到研发、生产、运营等,包含了产品开发到营销运营的整个过程。围绕产品(或项目)生命周期的过程的管理模式,是一套生产流程,更是时下国际先进的管理体系。IPD(集成产品开发)以产品成功、用户满意为最终目标,通过构建一套科学、持续、稳定、可重复、高质量的管理模式。 引入IPD(集成产品开发)模式可以从传统产品研发模式,转变到制度化、可持续地推出有市场竞争力、满足客户需求的成功产品。以应对激烈市场竞争,帮助企业和团队达成战略目标。援引国际著名PRTM咨询公司的统计分析数据,成功引入IPD能够给公司的产品研发生产带来明显的提升: 产品上市时间缩短40%——60%; 产品开发浪费减少50%——80%; 产品开发生产能力提高25%——30%; 新产品收益(占全部收益的百分比)提升100%。 通过上述数据分析,我们可以得出结论:在产品研发过程的管理中采用IPD模式,能够比较全面地管理产品研发的全生命周期,让项目开发进度变得更加可控,达到快速适应市场变化、减少研发投入、降低生产成本、提高产品质量,让产品在其特性上更为稳定可靠,具有高适应性。IPD(集成产品开发)...
- 下一篇
企业大模型如何成为自己数据的“百科全书”?
作者 | 郭炜 编辑 | Debra Chen 在当今的商业环境中,大数据的管理和应用已经成为企业决策和运营的核心组成部分。然而,随着数据量的爆炸性增长,如何有效利用这些数据成为了一个普遍的挑战。 本文将探讨大数据架构、大模型的集成,以及如何将大模型集成到公司大数据架构中,并使用Apache SeaTunnel和WhaleStudio将公司内部数据进行“百科全书化”,利用大数据和大模型来提升企业运营效率。 大模型在整体公司大数据架构中的位置 当今,无论大企业还是小公司,其实都会遇到同样的问题:公司里沉淀的数据量巨大,但到底该怎么使用? 大模型的横空出世让数据利用有了全新的使用途径,问题是如何大量获得公司的数据,变成“你”的大模型? 以及如何将大模型灌入公司内部数据,并“百科全书”化? 大数据与大模型架构概览 为了更好地回答这些问题,我们首先需要弄清楚大模型在企业复杂的数据结构中处于什么位置。目前,全球流行的大数据结构图如下所示: 企业在处理大数据时,通常会将数据分为实时数据和批量数据两大类。实时数据可以来自车联网、数据库日志、点击流等多种来源,而批量数据则可能包括文件、报表、CSV文件...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6