从独立开发者到成为SeaTunnel社区的贡献者，我做对了哪些事儿？-低调大师

从独立开发者到成为SeaTunnel社区的贡献者，我做对了哪些事儿？

2024-05-15 303

个人介绍

大家好，我是闫成雨，目前是一名独立开发者。专注于数据开发、机器学习、资源调度算法和分布式系统。

GitHub ID: CheneyYin

个人主页：https://cheneyyin.github.io/

为社区做了哪些贡献

加强了Spark引擎和Flink引擎对SeaTunnel数据类型的支持。
修复了一些Spark引擎转换层的BUG。
完善了Assert连接器支持的数据类型。
修复了一些CI相关的BUG。
完善了一些文档。

贡献记录：https://github.com/apache/seatunnel/pulls?q=is%3Apr+author%3ACheneyYin+is%3Aclosed

初识

在2022年到2023年期间，我一直在尝试开发一款类似于StreamSet和NiFi的可视化数据集成软件。

直到2023年3月左右，我完成了一个简陋的可视化数据集成软件Metal，并将其迁移到了我的GitHub仓库。尽管Metal功能简单，但它成功验证了设计思路和技术栈的可行性。

直到我阅读了发布在devops.dev社区的文章《The Evolution of Architecture from ETL to EtLT》，我才了解到许多关于数据集成的新观点，如小t的概念、使用通用计算引擎的局限性以及数据集成执行引擎的价值等等。

同时，这也是我首次接触到Apache SeaTunnel，它是建立在这些新理念之上的。在第一次尝试Apache SeaTunnel后，我毅然放弃了之前的方向，转而选择了活跃在SeaTunnel社区。

提交第一个PR

跟大家分享一下我第一次提PR的故事，早期的时候，在使用SeaTunnel的一次压测中，我注意到Spark引擎抛出了OOM（Out Of Memory）异常。

我首先复现了这个问题，然后进行了调试并定位了原因。发现是Spark转换层的TransformerProcessor在内存中临时存储了输出结果，导致处理大数据量时堆内存不足。

在对问题进行深入分析并找到解决方案后，我向Apache SeaTunnel社区提交了我的第一个Issue(#4502)，感兴趣的朋友可以去看看，在这个Issue中，我解释了问题的现象和原因，并提出了解决方案。随后，我提交了我的第一个PR(#4503)。

我的第一个PR从提交到合并仅用了4天，这显示了社区高效的反馈速度。但对我个人来说，这个过程充满了期待和漫长，特别是在CI环境出现异常导致测试无法通过时。

不过，社区的资深成员及时提供了帮助，最终成功合并了PR，所以你在初期参与贡献的时候，向资深的贡献者寻求帮助是至关重要的，而且大家都会乐于助人！但是也请注意不用太浪费别人的时间。

持续参与

在过去的一年里，我一直积极参与社区活动，阅读技术大咖们的分享内容，关注并回复社区的Issue，同时持续跟踪Pull Request列表。

另外，我也为社区做出了一些代码贡献。

例如：

为Spark引擎添加了对SeaTunnel的Time类型的支持(#5188)
为Flink引擎增加了可配置precision和scale的Decimal类型支持(#5419)
增强了Hocon风格的泛型声明(#6187)
完善了Assert连接器覆盖全部数据类型(#6275)

这些Pull Request大多旨在改善用户的使用体验。

社区留给我的印象

我对Apache SeaTunnel社区的第一印象是热情而活跃。社区对Issue和Pull Request的反馈速度很快，同时也对新的贡献者非常友好和耐心，使得新贡献者能够轻松快速地参与进来。

未来的期望

希望社区能够进一步壮大，吸引更多开发者共推SeaTunnel发展。愿SeaTunnel用户群持续扩大，让更多人享受其便捷的数据集成解决方案。期望用户体验不断提升，SeaTunnel在稳定性上取得新突破。

同时，希望SeaTunnel的文档更详尽完善，提供全面且清晰的使用指南和技术文档，以便用户快速上手和解决问题。

本文由白鲸开源科技提供发布支持！

微信关注我们

原文链接：https://my.oschina.net/SeaTunnel/blog/11123906

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

解锁高效创新：IPD策略如何重塑产品开发流程

IPD（集成产品开发）涵盖了产品从创意提出到研发、生产、运营等，包含了产品开发到营销运营的整个过程。围绕产品（或项目）生命周期的过程的管理模式，是一套生产流程，更是时下国际先进的管理体系。IPD（集成产品开发）以产品成功、用户满意为最终目标，通过构建一套科学、持续、稳定、可重复、高质量的管理模式。引入IPD（集成产品开发）模式可以从传统产品研发模式，转变到制度化、可持续地推出有市场竞争力、满足客户需求的成功产品。以应对激烈市场竞争，帮助企业和团队达成战略目标。援引国际著名PRTM咨询公司的统计分析数据，成功引入IPD能够给公司的产品研发生产带来明显的提升：产品上市时间缩短40%——60%；产品开发浪费减少50%——80%；产品开发生产能力提高25%——30%；新产品收益（占全部收益的百分比）提升100%。通过上述数据分析，我们可以得出结论：在产品研发过程的管理中采用IPD模式，能够比较全面地管理产品研发的全生命周期，让项目开发进度变得更加可控，达到快速适应市场变化、减少研发投入、降低生产成本、提高产品质量，让产品在其特性上更为稳定可靠，具有高适应性。IPD（集成产品开发）...

2024-05-15

361

作者 | 郭炜编辑 | Debra Chen 在当今的商业环境中，大数据的管理和应用已经成为企业决策和运营的核心组成部分。然而，随着数据量的爆炸性增长，如何有效利用这些数据成为了一个普遍的挑战。本文将探讨大数据架构、大模型的集成，以及如何将大模型集成到公司大数据架构中，并使用Apache SeaTunnel和WhaleStudio将公司内部数据进行“百科全书化”，利用大数据和大模型来提升企业运营效率。大模型在整体公司大数据架构中的位置当今，无论大企业还是小公司，其实都会遇到同样的问题：公司里沉淀的数据量巨大，但到底该怎么使用？大模型的横空出世让数据利用有了全新的使用途径，问题是如何大量获得公司的数据，变成“你”的大模型？以及如何将大模型灌入公司内部数据，并“百科全书”化？大数据与大模型架构概览为了更好地回答这些问题，我们首先需要弄清楚大模型在企业复杂的数据结构中处于什么位置。目前，全球流行的大数据结构图如下所示：企业在处理大数据时，通常会将数据分为实时数据和批量数据两大类。实时数据可以来自车联网、数据库日志、点击流等多种来源，而批量数据则可能包括文件、报表、CSV文件...

2024-05-15

337

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。