云上大数据系列2:如何最大化利用你的集群资源
本篇是云上大数据系列第二篇文章,主要介绍Hadoop系统的基础调优,让Hadoop集群的资源能够被充分利用起来。在后续的文章中,我们还将会分享更多关于云上大数据系统的性能分析和调优经验,敬请期待。 大数据系统对资源的占用较大,如果不进行合适的基础调优,很容易造成资源的浪费。尤其是在云端部署大数据系统,按量计费却没有最大化利用购买的资源,往往导致投入产出比较低。本篇我们介绍如何对Hadoop系统进行基础优化,让 Hadoop 系统的资源能够被充分利用起来。 资源环境:ecs.d1.6xlarge × 5 软件系统:CDH 5.14.2 (Spark 1.6) 操作系统:CentOS 7.3 我们以 CDH 5.14.2 为例,介绍 Spark-on-YARN 的基础调优方法,在这一版本的 CDH 中,Spark 版本是 1.6 。值得注意的是,Spark 1.6 以后(含),其内存管理方式发生了变化,本文论述的方法不一定适用于之前的版本。阅读本文前,你需要有一定的 Hadoop 使用或开发经验。 1. Spark-on-YARN 的资源分配 提交 Spark 任务的时候,YARN 在做什...