hadoop cascading demo-低调大师

hadoop cascading demo

2017-12-06 567

Java 代码：

package com.xunjie.dmsp.olduser;

import java.util.Properties;

import cascading.flow.Flow;
import cascading.flow.FlowConnector;
import cascading.operation.regex.RegexSplitter;
import cascading.pipe.Each;
import cascading.pipe.Pipe;
import cascading.scheme.TextLine;
import cascading.tap.Hfs;
import cascading.tap.Tap;
import cascading.tuple.Fields;

/**
* test.txt：
* 1    a
* 2    b
* 3    c
*
* /data/hadoop/hadoop/bin/hadoop jar
*         dmsp_test_jar-1.0-SNAPSHOT-dependencies.jar
*             hdfs:/user/hadoop/test/lky/test.txt
*             file:///data/hadoop/test/lky/output
*/
public class Test2 {
     public static void main(String[] args) {

         // 设定输入文件
        String sourcePath = args[ 0 ];
         // 设置输出文件夹
        String sinkPath = args[ 1 ];

         // 定义读取列
        Fields inputfields = new Fields( " num " , " value " );
         // 定义分解正则，默认 \t
        RegexSplitter spliter = new RegexSplitter(inputfields);


         // 管道定义
        Pipe p1 = new Pipe( " test " );
         // 管道嵌套：
         // 分解日志源文件，输出给定字段
        p1 = new Each(p1, new Fields( " line " ) ,spliter);


         // 设定输入和输出，使用泛型Hfs
        Tap source = new Hfs( new TextLine(),  sourcePath );
        Tap sink = new Hfs( new TextLine() , sinkPath );



         // 配置job
        Properties properties = new Properties();
        properties.setProperty( " hadoop.job.ugi " , " hadoop,hadoop " );

        FlowConnector.setApplicationJarClass( properties, Main. class );
        FlowConnector flowConnector = new FlowConnector(properties);

        Flow importFlow = flowConnector.connect( " import flow " , source,sink,p1);

        importFlow.start();
        importFlow.complete();


    }
}

本文转自博客园刘凯毅的博客，原文链接：hadoop cascading demo，如需转载请自行联系原博主。

微信关注我们

原文链接：https://yq.aliyun.com/articles/361315

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop jython ( windows )

参考： hadoop window 搭建后,由于对 py 的语法喜欢，一直想把hadoop,改成jython 的这次在自己电脑上终于完成,下面介绍过程: 测试环境：依然的 windows + cygwin hadoop 0.18 # C:/cygwin/home/lky/tools/java/hadoop-0.18.3 jython 2.2.1 # C:/jython2.2.1 参考: PythonWordCount 启动 hadoop 并到 hdoop_home 下 # 在云环境中创建 input 目录 $>bin/hadoopdfs -mkdir input # 在包 hadoop 的 NOTICE.txt 拷贝到 input 目录下 $>bin/hadoopdfs-copyFromLocalc:/cygwin/home/lky/tools/java/hadoop-0.18.3/NOTICE.txt hdfs:///user/lky/input $>cdsrc/examples/python # 创建个脚本 ( jy->jar-&g...

2017-12-07

785

hadoop 原理参考：用 Hadoop 进行分布式并行编程官方中文文档： http://hadoop.apache.org/core/docs/r0.18.2/cn/index.html 1. 首先安装 cygwin ssh 参考 windows ssh 搭建 2.搭建hadoop 参考 Cygwin下的Hadoop快速入门-伪分布式模式的查缺补漏这里还有 cygwin putty 控制台方法设置 3.开发环境和 demo 参考通过参考应该环境的搭建没问题，我这搭建成功了，说下我这一些注意到地方吧 1. 我这使用的最新版本的 hadoop-0.20.0 在参考文档中，修改 hadoop-site.xml 。在这个版本已经在conf下找不到了，我这尝试修改的hdfs-site.xml 。测试的时候竟然通过了。 <? xmlversion="1.0" ?> <? xml-stylesheettype="text/xsl"href="configuration.xsl" ?> < configuration > < property...

2017-12-07

665

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。