基于Alluxio系统的Spark DataFrame高效存储管理技术
介绍
越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理,提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中,从而将Spark streaming作业的平均性能提升了15倍,峰值甚至达到300倍左右。在未使用Alluxio之前,他们发现生产环境中的一些Spark作业会变慢甚至无法完成。而在采用Alluxio后这些作业可以很快地完成。在这篇文章中,我们将介绍如何使用Alluxio帮助Spark变得更高效,具体地,我们将展示如何使用Alluxio高效存储Spark DataFrame。
Alluxio和Spark缓存
用户使用Alluxio存储Spark DataFrame非常简单:通过Spark DataFrame write API将DataFrame作为一个文件写入Alluxio。通常的做
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云分析引擎Spark On 多数据源介绍
主题:阿里云分析引擎Spark On 多数据源介绍 讲师:云覆(周广成)--阿里数据库产品专家 内容概要:阿里云的分析引擎基于开源Spark构建分析HBase数据、Phoenix、MongoDB、RDS等多数据源的能力,本次分享主要介绍分析引擎Spark分析多数据库的原理、用法和场景介绍。 视频回看地址:https://yq.aliyun.com/live/854 PPT下载地址:https://yq.aliyun.com/download/3313
- 下一篇
1月30日云栖精选夜读 | 《2018年云上挖矿态势分析报告》发布,非Web类应用安全风险需重点关注
近日,阿里云安全团队发布了《2018年云上挖矿分析报告》。该报告以阿里云2018年的攻防数据为基础,对恶意挖矿态势进行了分析,并为个人和企业提出了合理的安全防护建议。 热点热议 《2018年云上挖矿态势分析报告》发布,非Web类应用安全风险需重点关注 作者:云安全专家 3分钟,了解阿里云热门开发者工具 Cloud Toolkit 作者:银时发表在:阿里中间件团队 优酷IPv6改造纪实:视频行业首家拥抱下一代网络技术 作者:技术小能手发表在:阿里技术 知识整理 基于Alluxio系统的Spark DataFrame高效存储管理技术 作者:开源大数据发表在:Apache Spark中国技术社区 Spark in action on Kubernetes - Playground搭建与架构浅析 作者:开源大数据发表在:Apache Spark中国技术社区 Kubernetes 实战教学,手把手教您在 K8s 集群上部署 Istio Mesh(二) 作者:docker公司发表在:Docker公司 Fescar example解析 - TC流程 作者:晴天哥 Mac神兵利器(四)时间管理工具 作...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Windows10,CentOS7,CentOS8安装Nodejs环境