MapReduce中的分布式缓存使用
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50751007 MapReduce中的分布式缓存使用 @(Hadoop) 简介 DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的子节点的机器中,各个节点可以自行读取本地文件系统上的数据进行处理。 符号链接 可以同在原本HDFS文件路径上+”#somename”来设置符号连接(相当于一个快捷方式) 这样在MapReduce程序中可以直接通通过: File file = new File("somename"); 来获得这个文件 缓存在本地的目录设置 以下为默认值: <property> <name>mapred.local.dir</name> <value>${hadoop.tmp.dir}/mapred/localdir/filecache</value> </property...