【译】Apache Spark 2.4 内置数据源 Apache Avro
原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4
Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。从 Apache Spark 2.4 版本开始,Spark 原生支持了 Avro 数据的读写。新的内置 spark-avro 模块最初来自 Databricks 开源项目 Avro Data Source for Apache Spark(后文简称为 spark-avro )。 此外, 它还提供了:
- 新函数 from_avro() 和 to_avro() 用于在 DataFrame 中读写 Avro 数据,而不仅仅是文件。
- Avro 逻辑类