Spark+Alluxio性能调优十大技巧
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的热数据存储以提高性能。为了能够获得最佳性能,用户需要像使用其他技术栈组合一样遵循最佳的实战经验。本文介绍了在Alluxio上运行Spark时,对于实际工作负载性能调优的十大技巧。
常用链接
- Alluxio项目官网
- Alluxio Inc网站
- Alluxio在各大厂用例
- 关注Alluxio微信公众号: Alluxio_China
关于数据本地性的技巧
数据本地性就是尽量将计算移到数据所在的节点上进行,避免数据在网络上的传输。分布式数
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
elasticsearch使用指南之Elasticsearch Search API 概述与URI Search
本节开始,将详细介绍Search API。1、Search API概述 详细API如下: public final SearchResponse search(SearchRequest searchRequest, RequestOptions options) throws IOException public final void searchAsync(SearchRequest searchRequest, RequestOptions options, ActionListener < SearchResponse> listener) 首先关注一下SearchRequest SearchRequest类图如下: 其关键属性说明如下: private SearchType searchType = SearchType.DEFAULT:搜索类型。 QUERY_THEN_FETCH首先根据路由算法向相关分片(多个)发送请求,此时只返回documentId与一些必要信息(例如用于排序等),然后对各个分片的结果进行汇聚,排序,然后选取客户端指定需要获取的数据条数(to...
- 下一篇
Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA了。作为通用计算引擎的Spark肯定也不甘落后,来自 Databricks、NVIDIA、Google 以及阿里巴巴的工程师们正在为 ApacheSpark添加原生的 GPU 调度支持,该方案填补了Spark在 GPU 资源的任务调度方面的空白,有机地融合了大数据处理和 AI 应用,扩展了 Spark 在深度学习、信号处理和各大数据应用的应用场景。这项工作的 issue 可以在SPARK-24615里面查看,相关的 SPIP(Spark Project Improvement
相关文章
文章评论
共有0条评论来说两句吧...