《Hadoop MapReduce性能优化》一2.1 研究Hadoop参数
本节书摘来异步社区《Hadoop MapReduce性能优化》一书中的第2章,第2.1节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.1 研究Hadoop参数 Hadoop MapReduce性能优化正如第1章中提到的那样,有很多因素会对Hadoop MapReduce性能产生影响。一般说来,与工作负载相关的Hadoop性能优化需要关注以下3个主要方面:系统硬件、系统软件,以及Hadoop基础设施组件的配置和调优/优化。 需要指出的是,Hadoop被归类为高扩展性解决方案,但却不足以归类为高性能集群解决方案。系统管理员可以通过各种配置选项来配置和调优Hadoop集群。性能配置参数主要关注CPU利用率、内存占用情况、磁盘I/O和网络流量。除了Hadoop主要性能参数以外,其他系统参数,如机架间带宽,也可能影响集群的整体性能。 Hadoop可以按照用户需要进行配置和定制,可以通过对安装完成后自动生成的配置文件进行修改来满足应用和集群的特定需要。 配置文件分为两类,即只读默认配置文件和站点特定配置文件。 ...