Hadoop 利用FileSystem API 执行hadoop文件读写操作-低调大师

Hadoop 利用FileSystem API 执行hadoop文件读写操作

2017-11-21 543

因为HDFS不同于一般的文件系统，所以Hadoop提供了强大的FileSystem API来操作HDFS.

核心类是FSDataInputStream和FSDataOutputStream

读操作：

我们用FSDataInputStream来读取HDFS中的指定文件（第一个实验），另外我们还演示了这个类的定位文件位置的能力，然后从指定位置开始读取文件（第二个实验）。

代码如下：

/*
*/
package com.charles.hadoop.fs;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
/**
*
* Description: 查看Hadoop文件系统中的文件，利用hadoop FileSystem接口中的FSDataInputStream
* FSDataInputStream还具有流定位的能力，可以从文件的任意位置开始读取
*
* @author charles.wang
* @created May 26, 2012 12:28:49 PM
*
*/
public class ReadFromHadoopFileSystem {
/**
* @param args
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
//第一个参数传递进来的是hadoop文件系统中的某个文件的URI,以hdfs://ip 的theme开头
String uri = args[0];
//读取hadoop文件系统的配置
Configuration conf = new Configuration();
conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user");
//FileSystem是用户操作HDFS的核心类，它获得URI对应的HDFS文件系统
FileSystem fs = FileSystem.get(URI.create(uri),conf);
FSDataInputStream in = null;
try{
//实验一：输出全部文件内容
System.out.println("实验一：输出全部文件内容");
//让FileSystem打开一个uri对应的FSDataInputStream文件输入流，读取这个文件
in = fs.open( new Path(uri) );
//用Hadoop的IOUtils工具方法来让这个文件的指定字节复制到标准输出流上
IOUtils.copyBytes(in, System.out,50,false);
System.out.println();
//实验二:展示FSDataInputStream文件输入流的流定位能力,用seek进行定位
System.out.println("实验二:展示FSDataInputStream文件输入流的流定位能力,用seek进行定位");
//假如我们要吧文件输出3次
//第一次输入全部内容，第二次输入从第20个字符开始的内容，第3次输出从第40个字符开始的内容
for (int i=1;i<=3;i++){
in.seek(0+20*(i-1));
System.out.println("流定位第 "+i+" 次：" );
IOUtils.copyBytes(in, System.out,4096,false);
}
}finally{
IOUtils.closeStream(in);
}
}
}

我们传入的命令行参数为我们要读的HDFS文件系统中某文件的URI:

hdfs://192.168.129.35:9000/user/hadoop-user/textfile.txt

最终输出结果为：

实验一：输出全部文件内容
This is a text file edited by charles to test the hadoop distributed file system's features.
实验二:展示FSDataInputStream文件输入流的流定位能力,用seek进行定位
流定位第 1 次：
This is a text file edited by charles to test the hadoop distributed file system's features.
流定位第 2 次：
edited by charles to test the hadoop distributed file system's features.
流定位第 3 次：

写操作：

我们用FSDataOutputStream来写文件到HDFS系统中，或者说从本地文件系统中复制文件到HDFS文件系统中。其中这个本地文件系统是相对于运行这段java代码的宿主系统。

代码如下：

/*
*/
package com.charles.hadoop.fs;
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;
/**
*
* Description: 这个类展示如何将一个文件从本地文件系统复制到 HDFS
*
* @author charles.wang
* @created May 26, 2012 1:00:39 PM
*
*/
public class WriteToHadoopFileSystem {
/**
* @param args
*/
public static void main(String[] args)throws Exception{
// TODO Auto-generated method stub
//两个参数分别是本地文件系统的的输入文件路径和HDFS中的输出文件位置
//如果这段代码最终运行在Hadoop所在的服务器上，那么本地文件系统是相对于那台服务器的本地文件系统
//如果这段代码运行在我们Windows PC上，那么本地文件系统是这台Window PC的文件系统
String localSrc = args[0];
String dst= args[1];
//因为本地文件系统是基于java.io包的，所以我们创建一个本地文件输入流
InputStream in = new BufferedInputStream( new FileInputStream(localSrc));
//读取hadoop文件系统的配置
Configuration conf = new Configuration();
conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user");
//仍然用FileSystem和HDFS打交道
//获得一个对应HDFS目标文件的文件系统
FileSystem fs = FileSystem.get(URI.create(dst), conf);
//创建一个指向HDFS目标文件的输出流
OutputStream out = fs.create(new Path(dst) );
//用IOUtils工具将文件从本地文件系统复制到HDFS目标文件中
IOUtils.copyBytes(in, out, 4096,true);
System.out.println("复制完成");
}
}

我们传入2个命令行参数，一个是本地文件系统中被复制的文件路径，第二个要复制到的HDFS文件系统中的目标文件路径：

copyMe.txt
hdfs://192.168.129.35:9000/user/hadoop-user/copyMe.txt

我们去文件系统中去检查文件，果然文件被复制上去了：

打开这个目标文件,果然内容与预期一样：

本文转自 charles_wang888 51CTO博客，原文链接：http://blog.51cto.com/supercharles888/878921，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/428015

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop 用FileStatus类来查看HDFS中文件或目录的元信息

Hadoop中的FileStatus类可以用来查看HDFS中文件或者目录的元信息，任意的文件或者目录都可以拿到对应的FileStatus, 我们这里简单的演示下这个类的相关API： /* */ packagecom.charles.hadoop.fs; importjava.net.URI; importjava.sql.Timestamp; importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.fs.FileStatus; importorg.apache.hadoop.fs.FileSystem; importorg.apache.hadoop.fs.Path; /** * *Description:这个类演示如何通过FileSystem的getFileStatus()方法来获得FileStatus对象 *进而查询文件或者目录的元信息 * *我们这里做2个实验，依次是获取HDFS中的某文件的元信息，获取HDFS中某目录的元信息 * *@authorcharles.wang *@createdMa...

2017-11-22

602

Hadoop HDFS提供了一组命令集来操作文件，它既可以操作Hadoop分布式文件系统，也可以操作本地文件系统。但是要加上theme(Hadoop文件系统用hdfs://,本地文件系统用file://) 1. 添加文件，目录 HDFS文件系统（需要加hdfs://)：因为我们在core-site.xml中配置了fs.default.name 所以所有和HDFS打交道的命令都不需要加上前缀hdfs://192.168.129.35:9000 比如我们要在Hadoop 文件系统中创建一个目录叫 /user/hadoop-user ，则 hadoop fs -mkdir /user/hadoop-user 要查看我们创建的目录， hadoop fs -ls / 或者用hadoop fs -lsr /递归的显示子目录本地的文件系统(需要加file://)：比如我们要查看Linux本地文件系统的/tmp/charles目录，则: 2.移动复制文件，目录如果我们要把一个文件从本地文件系统复制到HDFS：比如我们在/tmp/charles目录下有个文件叫 textfile.tx...

2017-11-22

594

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。