Distribute Cached 使用-低调大师

Distribute Cached 使用

2016-09-09 784

在Kettle中说到Pentaho的MapReduce要用到它，就查了一下关于它的资料，以下是从官方查到的内容，记录一下。

DistributedCache: 一些比较小的需要共享的文件或者jar包，我们先存到hdfs上，然后在MapReduce线程当中进行共享，直接用了。

// Setting up the cache for the application
     
     1. Copy the requisite files to the FileSystem:
     
     $ bin/hadoop fs -copyFromLocal lookup.dat /myapp/lookup.dat  
     $ bin/hadoop fs -copyFromLocal map.zip /myapp/map.zip  
     $ bin/hadoop fs -copyFromLocal mylib.jar /myapp/mylib.jar
     $ bin/hadoop fs -copyFromLocal mytar.tar /myapp/mytar.tar
     $ bin/hadoop fs -copyFromLocal mytgz.tgz /myapp/mytgz.tgz
     $ bin/hadoop fs -copyFromLocal mytargz.tar.gz /myapp/mytargz.tar.gz

     
     2. Setup the application's JobConf:
     
     JobConf job = new JobConf();
　　  //　#lookup.dat 表示给前面的这个文件取一个别名，类似sql里面的as别名一样
     DistributedCache.addCacheFile(new URI("/myapp/lookup.dat#lookup.dat"), 
                                   job);
     DistributedCache.addCacheArchive(new URI("/myapp/map.zip", job);
     DistributedCache.addFileToClassPath(new Path("/myapp/mylib.jar"), job);
     DistributedCache.addCacheArchive(new URI("/myapp/mytar.tar", job);
     DistributedCache.addCacheArchive(new URI("/myapp/mytgz.tgz", job);
     DistributedCache.addCacheArchive(new URI("/myapp/mytargz.tar.gz", job);

     
     3. Use the cached files in the Mapper
     or Reducer:
     
     public static class MapClass extends MapReduceBase  
     implements Mapper<K, V, K, V> {
     
       private Path[] localArchives;
       private Path[] localFiles;
       
       public void configure(JobConf job) {
         // Get the cached archives/files
         localArchives = DistributedCache.getLocalCacheArchives(job);
         localFiles = DistributedCache.getLocalCacheFiles(job);
       }
       
       public void map(K key, V value, 
                       OutputCollector<K, V> output, Reporter reporter) 
       throws IOException {
         // Use data from the cached archives/files here
         // ...
         // ...
         output.collect(k, v);
       }
     }

查看代码了才知道其实它根本不是什么缓存，它只不过是在配置文件中的指定属性记录下相应的值，然后在mapreduce的时候，调用配置文件里面的属性值，然后取得需要的文件盒jar包。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60409

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。但是这里面有一个问题出现了，它不支持我现在用的版本，我用的是Hortonworks的HDP1.3，好吧，经过不懈的努力，终于被我搜索到了，哈哈，原来它可以支持的，并且官方已经提供了相应的包提供使用，只是不太好找罢了！下面把更新的过程和大家分享一下。先提供文中所需内容的下载地址： 1.插件升级包 https://support.pentaho.com/entries/24445558-Big-Data-Plugin-Version-1-3-3-for-Pentaho-BA-Server-4-8-1-x-and-PDI-4-4-1-x 2.hdp1.3的支持包 https://pentaho.app.box.com/s/0wqy2qty3szv7...

2016-09-09

749

Hive基础知识学习 [日期：2012-09-25] 来源：Linux社区作者：zuochanxiaoheshang [字体：大中小] 转自: http://www.linuxidc.com/Linux/2012-09/71216.htm 1．Hive是什么按照我的理解，Hive是一个中间工具。它的主要作用是将HQL（HiveQueryLanguage）转换为一系列的MapReduceJob，利用Hadoop框架对数据进行类SQL处理。他的主要功能是在Hadoop框架上提供一个类SQL中间层，简化在Hadoop框架上实现SQL功能程序的编写。请思考一下，为了实现这个功能，Hive应该具备什么功能？ 1)首先，Hive需要提供一种功能，将待处理的数据加载到HDFS当中。之所以要提供这种功能，是因为，Hadoop想要充分发挥其分布式特性，就需要底层分布式文件系统HDFS的支持。因此，只有将数据保存在HDFS当中才能充分发挥Hadoop的优势。 2)其次，Hive将数据加载到HDFS之后，需要提供对数据进行组织管理的功能。如果不提供数据的组织管理功能，那么其跟HDFS存储文件没有区...

2016-09-09

695

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。