必看！S3File Sink Connector 使用文档-低调大师

必看！S3File Sink Connector 使用文档

2023-09-21 397

S3File 是一个用于管理 Amazon S3（Simple Storage Service）的 Python 模块。当前，Apache SeaTunnel 已经支持 S3File Sink Connector，为了更好地使用这个 Connector，有必要看一下这篇使用文档指南。

描述

将数据输出到 AWS S3 文件系统。

提示：

如果您使用的是 Spark/Flink，在使用此连接器之前，必须确保您的 Spark/Flink 集群已经集成了 Hadoop。Hadoop 2.x 版本已通过测试。

如果您使用的是 SeaTunnel Engine，它会在您下载和安装 SeaTunnel Engine 时自动集成 Hadoop JAR 包。您可以在 ${SEATUNNEL_HOME}/lib 目录下确认这个 JAR 包是否存在。

主要特性

[x] 仅一次语义

默认情况下，我们使用 2PC 提交来确保 "仅一次语义"。

[x] 文件格式类型
- [x] 文本 (text)
- [x] CSV
- [x] Parquet
- [x] ORC
- [x] JSON
- [x] Excel

选项

名称	类型	必需	默认值	备注
path	string	是	-
bucket	string	是	-
fs.s3a.endpoint	string	是	-
fs.s3a.aws.credentials.provider	string	是	com.amazonaws.auth.InstanceProfileCredentialsProvider
access_key	string	否	-	仅在 fs.s3a.aws.credentials.provider = org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider 时使用
access_secret	string	否	-	仅在 fs.s3a.aws.credentials.provider = org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider 时使用
custom_filename	boolean	否	false	是否需要自定义文件名
file_name_expression	string	否	"${transactionId}"	仅在 custom_filename 为 true 时使用
filename_time_format	string	否	"yyyy.MM.dd"	仅在 custom_filename 为 true 时使用
file_format_type	string	否	"csv"
field_delimiter	string	否	'\001'	仅在 file_format 为 text 时使用
row_delimiter	string	否	"\n"	仅在 file_format 为 text 时使用
have_partition	boolean	否	false	是否需要处理分区
partition_by	array	否	-	仅在 have_partition 为 true 时使用
partition_dir_expression	string	否	"${k0}=${v0}/${k1}=${v1}/.../${kn}=${vn}/"	仅在 have_partition 为 true 时使用
is_partition_field_write_in_file	boolean	否	false	仅在 have_partition 为 true 时使用
sink_columns	array	否		当此参数为空时，将写入所有从 "Transform" 或 "Source" 获取的字段
is_enable_transaction	boolean	否	true
batch_size	int	否	1000000
compress_codec	string	否	none
common-options	object	否	-
max_rows_in_memory	int	否	-	仅在 file_format 为 Excel 时使用
sheet_name	string	否	Sheet${Random number}	仅在 file_format 为 Excel 时使用

path [string]

目标目录路径是必需的。

bucket [string]

S3 文件系统的bucket地址，例如：s3n://seatunnel-test，如果您使用的是 s3a 协议，此参数应为 s3a://seatunnel-test。

fs.s3a.endpoint [string]

fs s3a 端点

fs.s3a.aws.credentials.provider [string]

认证 s3a 的方式。目前我们仅支持 org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider 和 com.amazonaws.auth.InstanceProfileCredentialsProvider。

关于凭证提供程序的更多信息，您可以参考 Hadoop AWS 文档

access_key [string]

S3 文件系统的访问密钥。如果未设置此参数，请确认凭证提供程序链可以正确验证，可参考 hadoop-aws。

access_secret [string]

S3 文件系统的访问密钥。如果未设置此参数，请确认凭证提供程序链可以正确验证，可参考 hadoop-aws。

hadoop_s3_properties [map]

如果需要添加其他选项，可以在这里添加并参考此链接

hadoop_s3_properties {
      "fs.s3a.buffer.dir" = "/data/st_test/s3a"
      "fs.s3a.fast.upload.buffer" = "disk"
   }

custom_filename [boolean]

是否自定义文件名。

file_name_expression [string]

仅在 custom_filename 为 true 时使用

file_name_expression 描述了将创建到 path 中的文件表达式。我们可以在 file_name_expression 中添加变量 ${now} 或 ${uuid}，例如 test_${uuid}_${now}， ${now} 代表当前时间，其格式可以通过指定选项 filename_time_format 来定义。

请注意，如果 is_enable_transaction 为 true，我们将在文件名的开头自动添加${transactionId}_。

filename_time_format [string]

仅在 custom_filename 为 true 时使用

当 file_name_expression 参数中的格式为 xxxx-${now} 时，filename_time_format 可以指定路径的时间格式，默认值为 yyyy.MM.dd。常用的时间格式列于下表中：

符号	描述
y	年
M	月
d	月中的天数
H	一天中的小时 (0-23)
m	小时中的分钟
s	分钟中的秒数

file_format_type [string]

我们支持以下文件类型：

文本 (text)
JSON
CSV
ORC
Parquet
Excel

请注意，最终文件名将以文件格式的后缀结尾，文本文件的后缀是 txt。

field_delimiter [string]

数据行中列之间的分隔符。仅在 file_format 为 text 时需要。

row_delimiter [string]

文件中行之间的分隔符。仅在 file_format 为 text 时需要。

have_partition [boolean]

是否需要处理分区。

partition_by [array]

仅在 have_partition 为 true 时使用。

基于选定字段对分区数据进行分区。

partition_dir_expression [string]

仅在 have_partition 为 true 时使用。

如果指定了 partition_by，我们将根据分区信息生成相应的分区目录，并将最终文件放在分区目录中。

默认的 partition_dir_expression 是 ${k0}=${v0}/${k1}=${v1}/.../${kn}=${vn}/。k0 是第一个分区字段，v0 是第一个分区字段的值。

is_partition_field_write_in_file [boolean]

仅在 have_partition 为 true 时使用。

如果 is_partition_field_write_in_file 为 true，分区字段及其值将写入数据文件中。

例如，如果您想要写入 Hive 数据文件，其值应为 false。

sink_columns [array]

需要写入文件的哪些列，默认值为从 "Transform" 或 "Source" 获取的所有列。字段的顺序决定了实际写入文件的顺序。

is_enable_transaction [boolean]

如果 is_enable_transaction 为 true，我们将确保在写入目标目录时数据不会丢失或重复。

请注意，如果 is_enable_transaction 为 true，我们将在文件头部自动添加 ${transactionId}_。

目前仅支持 true。

batch_size [int]

文件中的最大行数。对于 SeaTunnel Engine，文件中的行数由 batch_size 和 checkpoint.interval 共同决定。如果 checkpoint.interval 的值足够大，当文件中的行数大于 batch_size 时，写入器将写入文件。如果 checkpoint.interval 较小，则在新的检查点触发时，写入器将创建一个新文件。

compress_codec [string]

文件的压缩编解码器及其支持的详细信息如下：

txt: lzo none
JSON: lzo none
CSV: lzo none
ORC: lzo snappy lz4 zlib none
Parquet: lzo snappy lz4 gzip brotli zstd none

提示：Excel 类型不支持任何压缩格式。

常见选项

请参考 Sink Common Options 获取 Sink 插件的常见参数详细信息。

max_rows_in_memory [int]

当文件格式为 Excel 时，可以缓存在内存中的数据项的最大数量。

sheet_name [string]

工作簿的工作表名称。

示例

对于文本文件格式，具有 have_partition、custom_filename、sink_columns 和 com.amazonaws.auth.InstanceProfileCredentialsProvider 的配置示例：

  S3File {
    bucket = "s3a://seatunnel-test"
    tmp_path = "/tmp/seatunnel"
    path="/seatunnel/text"
    fs.s3a.endpoint="s3.cn-north-1.amazonaws.com.cn"
    fs.s3a.aws.credentials.provider="com.amazonaws.auth.InstanceProfileCredentialsProvider"
    file_format_type = "text"
    field_delimiter = "\t"
    row_delimiter = "\n"
    have_partition = true
    partition_by = ["age"]
    partition_dir_expression = "${k0}=${v0}"
    is_partition_field_write_in_file = true
    custom_filename = true
    file_name_expression = "${transactionId}_${now}"
    filename_time_format = "yyyy.MM.dd"
    sink_columns = ["name","age"]
    is_enable_transaction=true
    hadoop_s3_properties {
      "fs.s3a.buffer.dir" = "/data/st_test/s3a"
      "fs.s3a.fast.upload.buffer" = "disk"
    }
  }

对于 Parquet 文件格式，仅需用 org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider进行配置：

  S3File {
    bucket = "s3a://seatunnel-test"
    tmp_path = "/tmp/seatunnel"
    path="/seatunnel/parquet"
    fs.s3a.endpoint="s3.cn-north-1.amazonaws.com.cn"
    fs.s3a.aws.credentials.provider="org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider"
    access_key = "xxxxxxxxxxxxxxxxx"
    secret_key = "xxxxxxxxxxxxxxxxx"
    file_format_type = "parquet"
    hadoop_s3_properties {
      "fs.s3a.buffer.dir" = "/data/st_test/s3a"
      "fs.s3a.fast.upload.buffer" = "disk"
    }
  }

对于 orc 文件仅需配置 org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider：

  S3File {
    bucket = "s3a://seatunnel-test"
    tmp_path = "/tmp/seatunnel"
    path="/seatunnel/orc"
    fs.s3a.endpoint="s3.cn-north-1.amazonaws.com.cn"
    fs.s3a.aws.credentials.provider="org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider"
    access_key = "xxxxxxxxxxxxxxxxx"
    secret_key = "xxxxxxxxxxxxxxxxx"
    file_format_type = "orc"
  }

更新日志

2.3.0 2022-12-30

Bug修复
- 修复了以下导致数据写入文件失败的错误:
  - 当上游字段为空时会抛出 NullPointerException
  - Sink 列映射失败
  - 从状态中恢复写入器时直接获取事务失败 (3258)
功能
- 支持 S3A 协议 (3632)
  - 允许用户添加额外的 Hadoop-S3 参数
  - 允许使用 S3A 协议
  - 解耦 Hadoop-AWS 依赖
- 支持设置每个文件的批处理大小 (3625)
- 设置 S3 AK 为可选项 (3688)

下一版本

[优化]支持文件压缩（3699）

本文由白鲸开源科技提供发布支持！

微信关注我们

原文链接：https://my.oschina.net/SeaTunnel/blog/10112489

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

TiDB 7.1.0 LTS 特性解读丨关于资源管控 (Resource Control) 应该知道的 6 件事

TiDB 7.1.0 LTS 在前段时间发布，相信很多同学都已经抢先使用了起来，甚至都已然经过一系列验证推向了生产环境。面对 TiDB 7.1 若干重要特性，新 GA 的资源管控 (Resource Control) 是必须要充分理解、测试的一个重量级特性。对于常年奋斗在一线 DBA 岗位的我来说，学术方面的精进已经力不从心，大部分的时间都在强化“术”的方面，所以 TiDB 每更（新）必追，每个新 GA 的特性都要熟悉，这样当生产环境 TiDB 升级到目标版本后，才不至于手忙脚乱，新建 TiDB 集群后才能对新特性驾轻就熟。相信本文会给读者朋友们带来一些实质性的收获。言归正传，本文将围绕“资源管控”主题，详细说说关于 “资源管控” 您应该知道的 6 件事。从用户场景出发，看特性如何使用从 200+ 的国产数据库中脱颖而出，其有效、完备的文档当属“功不可没”。在 TiDB 7.1 的文档中是这样描述使用场景的：资源管控特性的引入对 TiDB 具有里程碑的意义。它能够将一个分布式数据库集群划分成多个逻辑单元，即使个别单元对资源过度使用，也不会挤占其他单元所需的资源。利用该特性： ...

2023-09-21

351

作者 | 代立冬编辑 | Debra Chen Apache DolphinScheduler 是现代数据工作流编排平台，具有非常强大的可视化能力，DolphinScheduler 致力于使数据工程师、分析师、数据科学家等数据工作者都可以简单轻松地搭建各种数据工作流，让数据处理流程更简单可靠。 DolphinScheduler 非常易于使用(easy to use)，目前有四种创建工作流的方法：在 UI 界面上直接通过拖放任务的方式来创建任务 PyDolphinScheduler，通过 Python API 创建工作流，也就是 workflow as code 的方式编写 yaml 文件，通过 yaml 创建工作流（目前必须安装 PyDolphinScheduler）通过 Open API 的方式来创建工作流以上 4 种总有一种方式适合您的场景！得益于 DolphinScheduler 采用无中心化的整体架构设计，使得 DolphinScheduler 调度性能也是同类开源数据工作流编排平台的 5 倍以上，如果您正有这样的性能问题或者调度延时问题，也不妨试试 Dolphin...

2023-09-21

452

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。