Hadoop常用命令-低调大师

Hadoop常用命令

2015-10-09 804

HDFS基本命令:
hadoop fs -cmd
cmd: 具体的操作，基本上与UNIX的命令行相同
args:参数
HDFS资源URI格式：
scheme://authority/path
scheme：协议名，file或hdfs
authority：namenode主机名
path：路径
示例：hdfs://localhost:9000/user/chunk/test.txt
假设已经在core-site.xml里配置了 fs.default.name=hdfs://localhost:9000，则仅使用/user/chunk/test.txt即可。
hdfs默认工作目录为 /user/$USER，$USER是当前的登录用户名。
HDFS命令示例：
hadoop fs -mkdir /user/trunk
hadoop fs -ls /user
hadoop fs -lsr /user (递归的)
hadoop fs -put test.txt /user/trunk
hadoop fs -put test.txt . (复制到hdfs当前目录下，首先要创建当前目录)
hadoop fs -get /user/trunk/test.txt . (复制到本地当前目录下)
hadoop fs -cat /user/trunk/test.txt
hadoop fs -tail /user/trunk/test.txt (查看最后1000字节)
hadoop fs -rm /user/trunk/test.txt
hadoop fs -help ls (查看ls命令的帮助文档)

hadoop fs -cat '/user/hive/warehouse/ci_cuser_20141231141853691/_SUCCESS'; hadoop fs -cat '/user/hive/warehouse/ci_cuser_20141231141853691/*'>CI_CUSERE_20141231141853691.csv && echo $?

~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该
文件仅仅执行一次!默认情况下,他设置一些环境变量,执行用户的.bashrc文件.

hadoop fs -cat '$1$2/*'>$3.csv
mv $3.csv/home/ocdc/coc

String command = "cd "+ ciFtpInfo.getFtpPath() + " && " +hadoopPath+ "hadoop fs -cat '/user/hive/warehouse/"+listName+"/*' > " +listTableName+".csv;";

'/home/ocdc/spark-1.2.0-oc-bin-2.3.0-cdh5.1.3/bin/beeline -u jdbc:hive2://10.1.251.98:10000 -n ocdc -p asiainfo

tar zxvf 文件名.tar.gz
cp 文件名1 文件名2 (复制文件)

管理员常用命令:

hadoop job –list #列出正在运行的Job

hadoop job –kill <job_id> #kill job

hadoop fsck / #检查HDFS块状态，是否损坏

hadoop fsck / -delete #检查HDFS块状态，删除损坏块

hadoop dfsadmin –report #检查HDFS状态，包括DN信息

hadoop dfsadmin –safemode enter | leave

hadoop distcp hdfs://a:8020/xxx hdfs://b:8020/// #并行copy

微信关注我们

原文链接：https://yq.aliyun.com/articles/609189

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark参数配置说明

1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件添加以下配置项 spark.sql.hive.convertMetastoreParquet false hive.exec.compress.output false 如果spark.sql.hive.convertMetastoreParquet不设置为false，前台清单预览看到的内容为乱码。由于parquet格式的文件内置了压缩，故输出结果不需要进行压缩，如果设置为压缩，清单下载功能异常。 2 修改$SPARK_HOME/conf目录下spark-env.sh文件，设置以下参数： SPARK_EXECUTOR_INSTANCES=11 SPARK_EXECUTOR_CORES=2 SPARK_EXECUTOR_MEMORY=1G SPARK_DRIVER_MEMORY=3G 根据需要配置，如果设置刚好满足所有内存，则没有多余的内存供其他task任务的执行 2.1 参数SPARK_EXECUTOR_INSTANCES 该参数决定了yarn集群中，最多能够同时启动的EXECUTOR的实例个...

2015-10-09

794

一、Hadoop系统架构图 Hadoop1.0与hadoop2.0架构对比图 YARN架构: ResourceManager –处理客户端请求 –启动/监控ApplicationMaster –监控NodeManager –资源分配与调度 NodeManager –单个节点上的资源管理 –处理来自ResourceManager的命令 –处理来自ApplicationMaster的命令 ApplicationMaster –数据切分 –为应用程序申请资源，并分配给内部任务 –任务监控与容错 YARN作业处理流程: 步骤1　用户向YARN 中提交应用程序，其中包括ApplicationMaster 程序、启动ApplicationMaster 的命令、用户程序等。步骤2　ResourceManager 为该应用程序分配第一个Container，并与对应的NodeManager 通信，要求它在这个Container 中启动应用程序的ApplicationMaster。步骤3　ApplicationMaster 首先向ResourceManager 注册，这样用户可以直接通过R...

2015-10-09

807

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。