distribute cache(3) cdh4.6.0 purge实现-低调大师

distribute cache(3) cdh4.6.0 purge实现

2017-11-14 546

这里主要说下在task初始化时的distribute purge相关的类：TrackerDistributedCacheManager

4.6.0的distribute purge行为由4个参数控制。

 
           local
           .cache.size 
           #默认10737418240 
          
           mapreduce.tasktracker.cache.
           local
           .numberdirectories 
           #默认10000 
          
           mapreduce.tasktracker.cache.
           local
           .keep.pct 
           #默认0.95 
          
           mapreduce.tasktracker.distributedcache.checkperiod 
           #默认1分钟

在声明一个TrackerDistributedCacheManager类的实例时，会初始化一个CleanupThread类的实例。

 
                this
                .cleanupThread=newCleanupThread(conf);

并启动

 
                publicvoidstartCleanupThread() {
               
                this
                .cleanupThread.start(); 
               
                } 
               
                （由TaskTracker类的initialize方法调用
               
                // Initialize DistributedCache
               
                this
                .distributedCacheManager=newTrackerDistributedCacheManager( 
               
                this
                .fConf,taskController); 
               
                this
                .distributedCacheManager.startCleanupThread(); 
               
                ）

CleanupThread是TrackerDistributedCacheManager类的内部类：

其原理是启动一个thread，定期去触发 BaseDirManager类的checkAndCleanup方法，不会阻塞当前进程。间隔时间由mapreduce.tasktracker.distributedcache.checkperiod控制。

 
                 public 
                 void 
                 run() { 
                
                 while 
                 ( running) { 
                
                 try 
                 { 
                
                 Thread. sleep(cleanUpCheckPeriod); 
                
                 baseDirManager.checkAndCleanup();  
                 //调用checkAndCleanup方法 
                
                 } 
                 catch 
                 (IOException e) { 
                
                 LOG.error(
                 "Exception in DistributedCache CleanupThread." 
                 , e); 
                
                 } 
                 catch
                 (InterruptedException e) { 
                
                 LOG.info(
                 "Cleanup..." 
                 ,e); 
                
                 //To force us to exit cleanly 
                
                 running = 
                 false
                 ; 
                
                 } 
                 catch 
                 (Throwable t) { 
                
                 exitTaskTracker(t); 
                
                 } 
                
                 } 
                
                 }

BaseDirManager也是TrackerDistributedCacheManager的内部类，控制distribute cache的删除操作和删除后状态数据的更新：

其中checkAndCleanup方法的实现：

 
                 Collection<CacheStatus> toBeDeletedCache = 
                 new 
                 LinkedList<CacheStatus>(); 
                
                 HashMap<Path, CacheDir> toBeCleanedBaseDir = 
                 new 
                 HashMap<Path, CacheDir>(); 
                
                 .........
                
                 for 
                 (Map.Entry<Path, CacheDir> baseDir : properties.entrySet()) { 
                 //循环遍历mapred.local.dir目录大小和文件量 
                
                 CacheDir baseDirCounts = baseDir.getValue(); 
                
                 LOG.debug(baseDir.getKey() + 
                 ": allowedCacheSize=" 
                 + allowedCacheSize + 
                
                 ",baseDirCounts.size=" 
                 + baseDirCounts.size + 
                
                 ",allowedCacheSubdirs=" 
                 + allowedCacheSubdirs + 
                
                 ",baseDirCounts.subdirs=" 
                 + baseDirCounts.subdirs); 
                
                 if 
                 (allowedCacheSize < baseDirCounts.size || 
                
                 allowedCacheSubdirs < baseDirCounts.subdirs) { 
                 //触发purge的条件（local.cache.size小于某一个目录大小，mapreduce.tasktracker.cache.local.numberdirectories小于某一个文件下的文件数量） 
                
                 CacheDir tcc = 
                 new 
                 CacheDir(); 
                
                 tcc.size = baseDirCounts.size - allowedCacheSizeCleanupGoal; 
                
                 tcc.subdirs = baseDirCounts.subdirs - allowedCacheSubdirsCleanupGoal; 
                
                 toBeCleanedBaseDir.put(baseDir.getKey(), tcc); 
                 //生成需要删除的目录的HashMap 
                
                 } 
                
                 }

实际的删除动作：

 
                   // do the deletion, after releasing the global lock
                  
                   for 
                   (CacheStatus cacheStatus : toBeDeletedCache) {  
                   //循环遍历需要删除的cache 
                  
                   cacheStatus. lock.lock();  
                   //获取删除对象的锁 
                  
                   try 
                   { 
                  
                   Path localizedDir = cacheStatus.getLocalizedUniqueDir(); 
                  
                   if 
                   (cacheStatus.user == 
                   null
                   ) { 
                  
                   TrackerDistributedCacheManager. LOG.info(
                   "Deleted path " 
                   + localizedDir); 
                  
                   try 
                   { 
                  
                   localFs.delete(localizedDir, 
                   true
                   );  
                   //public的情况调用FileSystem的delete方法 
                  
                   } 
                   catch 
                   (IOException e) { 
                  
                   TrackerDistributedCacheManager. LOG.warn(
                   "Could not delete distributed cache empty directory " 
                  
                   + localizedDir, e); 
                  
                   } 
                  
                   } 
                   else 
                   {  
                  
                   TrackerDistributedCacheManager. LOG.info(
                   "Deleted path " 
                   + localizedDir + 
                   " as " 
                   + cacheStatus.user ); 
                  
                   String base = cacheStatus.getBaseDir().toString(); 
                  
                   String userDir = TaskTracker.getUserDir(cacheStatus. user); 
                  
                   int 
                   skip = base.length() + 
                   1 
                   + userDir.length() + 
                   1
                   ; 
                  
                   String relative = localizedDir.toString().substring(skip); 
                  
                   taskController.deleteAsUser(cacheStatus.user , relative);  
                   //private的情况调用TaskController的deleteAsUser的方法 
                  
                   } 
                  
                   deleteCacheInfoUpdate(cacheStatus); 
                  
                   } 
                   finally 
                   { 
                  
                   cacheStatus. lock.unlock(); 
                  
                   } 
                  
                   }

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1401419，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/434575

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hive的几个排序

hive中常用的几个排序 order by #全局排序，因为是全局排序，所以job是一个reduce，reduce的个数参数设置对其无效 sort by #一个reduce时为全局排序，多个reduce时，每个reduce各自排序，为了提高全局排序的性能，可以先用sort by做局部排序，然后再做全局排序 distribute by #hash 分组，根据key和reduce个数进行数据分发，默认使用hash的方式 cluster by #distribute by + sort by（注意和hive.enforce.bucketing参数的应用）结合两个例子来看排序的应用： 1）cdnjob的优化思路熟悉map slot的分配规则的同学应该知道，text gz的文件是不支持split的，因此这种情况下最多只有一个map（不管数据量多大），这样在做数据处理时，如果文件很大而且计算逻辑比较复杂（比如cdn的报表，需要做各种聚合计算和ip地址的解析），效率就会比较低下。一个思路就是建一个中间表，对原始表进行distribute by，对中间表进行复杂的计算，这样就可以使用多个m...

2017-11-14

699

distribute cache purge阻塞task的bug测试。 cdh4.2.0: 测试方法： local.cache.size=650 因为cachedir size和count是存在内存中的HashMap中的，把local.cache.size值设置的足够小，在每次job运行时都会触发delete distribute cache的操作。又因为是private的，是同步删除，会造成task阻塞。使用dd来构造1M个的小文件至某一个cache dir目录。观察阻塞时间，bug可以重现。 1 2 3 4 5 6 7 #!/bin/bash dir =` for i in {1..11}; do find /home/xxx/hard_disk/ ${i} /mapred/local -name "*.jar" ; done | grep cmdline-jmxclient-0.10.3.jar| head -1| xargs dirname ` for ii in {0..100} do mkdir -p ${ dir } /dir ${ii} for i in {1.....

2017-11-14

722

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。