【译】Apache Spark 2.4 内置数据源 Apache Avro
原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4
Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。从 Apache Spark 2.4 版本开始,Spark 原生支持了 Avro 数据的读写。新的内置 spark-avro 模块最初来自 Databricks 开源项目 Avro Data Source for Apache Spark(后文简称为 spark-avro )。 此外, 它还提供了:
- 新函数 from_avro() 和 to_avro() 用于在 DataFrame 中读写 Avro 数据,而不仅仅是文件。
- Avro 逻辑类
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
中国HBase技术社区第九届meetup-HBase典型应用场景与实践(北京站)
2018年12月23日14点,将在北京朝阳360公司A座一层发布厅举办中国HBase技术社区第九届meetup-HBase典型应用场景与实践。 本期活动主题 13:30-14:00 签到 14:00-14:40 HBase 2.0 在360的技术改进与应用实践 课程介绍:HBase在360的使用现状和发展历程,以及在升级HBase2.0的过程中发现的问题与改进。讲师:王小勇——360系统部分布式存储方向架构师在360先后负责hdfs的版本开发和功能定制化、参与并完成了hbase 0.8.9版本的定制化和多项技术升级;带领技术团队,hbase2.0的应用实践过程中主导了多项改进,推动了hbase从低版本到hbase 2.0版本的平滑过度和功能迁移。 14:40-15:20 HBase 基本知识介绍及典型案例分析课程介绍:HBase基础知识介绍,Rowkey设计技巧,HBase企业级特性及组件介绍,HBase+Spark典型案例分析。讲师:吴阳平——阿里云HBase业务架构师 「过往记忆博客( https://www.iteblog.com ) 博主。」负责HBase时空、时序、分析、图等...
- 下一篇
Spark DAGScheduler中stage转换成TaskSet的过程
Spark DAGScheduler中stage转换成TaskSet的过程 更多资源分享 github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog.csdn.net/thinktothings/article/details/84726769 Youtube视频分析 Spark DAGScheduler中stage转换成TaskSet的过程(youtube视频) : Bilibili视频分析 Spark DAGScheduler中stage转换成TaskSet的过程(bilibili视频) : https://www.bilibili.com/video/av37442139/?p=18 DAGScheduler 转化stage为TaskSet 得到 partitions(分区信息) val partitionsToCompute: Seq[Int] = stage.findMissingPartitions() 计算分区的首选位置信息 val taskIdToLoc...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Mario游戏-低调大师作品
- 2048小游戏-低调大师作品
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案