海量数据分布式存储--Apache HDFS之最新进展
本文PPT来自Intel研发经理、Hadoop committee成员郑锴于10月16日在2016年杭州云栖大会上发表的《海量数据分布式存储--Apache HDFS》。 目前,大数据正在迅猛地发展,同时大数据技术本身也在不断地发展和完善,以满足人们日益庞大的数据处理需求。这些需求主要体现以下这六个方面: 第一,大数据要存储和处理的数据量越来越庞大。 第二,人们对处理数据速度的期望越来越高。 第三,存储的场景更复杂和丰富。 第四,存储设备开始变得廉价、读取速度变得更快。 第五,网络带宽越来越高,10Gb的网络已经是标配,40Gb乃至100Gb也将到来。 第六,存储和计算相分离,大数据加速向云端迁移。 到目前为止,在HDFS的存储演化中相继出现了Cace缓存支持、HSM多层次存储体系、EC纠删码等等技术,极大地提高了HDFS的性能和安全性。在未来,HDFS将把重点转移到智能存储管理、对象存储和云端存储三大方面上。其中,智能储存管理能提供端到端储存解决方案,完整收集集群储存和数据访问信息,智能感知存储状态变化并作出策略调整;对象存储将使对象变得更为轻量,使其对一些场景更为友好;云端存储则利...














