《Flume日志收集与MapReduce模式》一1.3 HDFS与流式数据/日志的问题
本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章,第1.3节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看
1.3 HDFS与流式数据/日志的问题
HDFS并不是真正的文件系统,至少从传统的认识来说不是这样,对于通常的文件系统来说,很多我们认为理所当然的东西并不适合于HDFS,比如挂载。这使得将流式数据装载进Hadoop中变得有些复杂。
在通常的Portable Operating System Interface(POSIX)风格的文件系统中,如果打开文件并写入数据,那么在文件关闭前它会一直存在于磁盘上。也就是说,如果另一个程序打开了相同的文件并开始读取,那么它会读取到写入器写到磁盘上的