每日一博 | 字节跳动 10EB 级大数据存储实战
背景 HDFS 简介 HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项: 和本地文件系统一样的目录树视图 Append Only 的写入(不支持随机写) 顺序和随机读 超大数据规模 易扩展,容错率高 HDFS 在字节跳动的发展 字节跳动已经应用 HDFS 非常长的时间了。经历了 9 年的发展,目前已直接支持了十多种数据平台,间接支持了上百种业务发展。从集群规模和数据量来说,HDFS 平台在公司内部已经成长为总数十万台级别服务器的大平台,支持了 10 EB 级别的数据量。 当前在字节跳动,HDFS 承载的主要业务如下: Hive,HBase,日志服务,Kafka 数据存储 Yarn,Flink 的计算框架平台数据 Spark,MapReduce 的计算相关数据存储 字节跳动特色的 HDFS 架构 在深入相关的技术细节之前,我们先看看字节跳动的 HDFS 架构。 架构介绍 字节跳动 HDFS 架构 接入层 接入层是字节版 HDFS 区别于社区版本最大的...
