EMR使用OSS还是云盘HDFS存储的选择讨论
前言
由于看中了E-MapReduce(简称EMR)云产品的易用性(易开发、易运维、易集成)、低价、安全、高可用等特性,很多用户会选择把他们的线下的Hadoop集群迁移到EMR上来;也有一些企业,特别是一些初创企业,本身是没有线下集群的,也会选择在云上直接从无到有开发大数据应用。
目前EMR除了支持Hadoop原生的基于本地盘(或云盘)的HDFS,也支持使用OSS来存储数据。云盘和本地盘在使用方法上是一样的,也最容易被理解。OSS也可以作为和HDFS相同级别的数据存储方式,也为EMR数据存储提供了一个新的选择。那么使用OSS有什么优势,又有什么缺点,什么情况下我们会使用OSS来代替HDFS,到底使用什么存储方案,这是首先摆在我们面前的一个问题。
这里分别列举各种场景下两种方案的优缺点,各位可以根据实际情况,选择最合适自己业务的一种方式。