Hadoop的相关资料-低调大师

Hadoop的相关资料

2017-11-21 671

1 HDFS

1.1 概念

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统

1.2 特点

- 高度容错性

- 硬件要求低

- 能提供高吞吐量的数据访问

1.3 文件系统命令行

1.3.1 获取帮助

 
         hadoop fs -help

1.3.2 ls命令

 
         hadoop fs -
         ls 
         / 
        
         hadoop fs -
         ls 
         -R 
         /user

1.3.3 getconf命令

 
         hdfs getconf -help 
        
         hdfs getconf -namenodes

1.3.4 版本信息

 
         hdfs version

注：由于与linux系统指令用法接近，详细请参阅文后的官方链接。

2 MapReduce

2.1 MapReduce的简介

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

2.2 工作原理

假若一个盘子中有黑豆、黄豆、绿豆、红豆，你现在想挑出其中的红豆。

MapReduce方法则是：

step1 找一个团队来处理（相当于一群服务器组成的集群）

step2 把豆子平均分配给团队里的每成员（相当于给群集中的服务器分配数据）

step3 让团队的成员开始挑选出其中的红豆（相当于群集的计算机并行地处理数据）

step4 把团队成员挑出来的豆子汇聚（相当于群集汇总并输出结果）

3 Hive

3.1 Hive的简介

3.1.1 概念

Hive是一个基于Hadoop的数据仓库平台。

3.1.2 Hive的作用

通过hive，我们可以方便地进行ETL的工作

hive定义了一个类似于SQL的查询语言

HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行

3.1.3 Hive项目的历史

Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与Pig有相似之处，但它有一些Pig目前还不支持的机制。

比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

4 impala

4.1 Impala的简介

Impala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互 SQL 大数据查询工具，Impala 没有再使用缓慢的 Hive+MapReduce 批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成），可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。

4.2 Impala的shell

4.2.1 启动shell

 
         impala-shell

4.2.2 版本查询

 
         select 
         version();

4.3 库的操作

4.3.1 查询数据库

 
         show databases;

4.3.2 创建数据库

 
         create database testdb;
        
         create database testdb2;

数据库存储路径：

 
         hdfs dfs -
         ls 
         /user/hive/warehouse/

4.3.3 使用数据库

 
         use testdb;

4.3.4 显示当前数据库

 
         select 
         current_database();

4.3.5 删除数据库

 
         drop database testdb;

4.4 表操作

4.4.1 创建表

 
         create table t1 (x int);
        
         create table t3 (
         id 
         int, word string); 
        
         create table city (
         id 
         int,name string,countrycode string,district string,population int);

4.4.2 显示数据库中的表

 
         show tables;
        
         show tables 
         in 
         testdb; 
        
         show tables 
         in 
         testdb like 
         't*'
         ;

4.4.3 表结构描述

 
         describe city;

4.4.4 修改表名称

 
         alter table t3 rename to t2;

4.4.5 插入数据

 
         insert into t1 values (1),(3),(2),(4);
        
         insert into t2 values (1, 
         "one"
         ), (3, 
         "three"
         ), (5, 
         'five'
         );

4.4.6 数据查询

 
         select 
         min(x), max(x), 
         sum
         (x), avg(x) from t1; 
        
         select 
         word from t1 
         join 
         t2 on (t1.x = t2.
         id
         );

5 sentry

5.1 开启权限

5.1.1 开启权限

Hive/Impala > Configuration > Service-Wide > Sentry Service > 选择“sentry”

5.1.2 指定认证服务器

Hive > Configuration > Service-Wide > Advanced > Server Name for Sentry Authorization(hive.sentry.server) > 填写sentry服务器名称或IP地址

5.1.3 设置特权用户

Hive > Configuration > Service-Wide > Security > Bypass Sentry Authorization Users(sentry.metastore.service.users) > 填写绕过的linux用户名（hive,impala,hue,hdfs等）

5.1.4 配置Hive的代理用户

HDFS > Configuration > Service-Wide > Proxy > Hive Proxy User Groups（hadoop.proxyuser.hive.groups） > 填写代理的linux用户名（hive,impala,hue,hdfs等）

5.1.5 重启服务

重启Hive/Impala的服务

5.2 授权

5.2.1 创建数据库用户和组

 
         groupadd gp1
        
         useradd 
         user1 -G gp1 
        
         useradd 
         user2 -G gp1

5.2.2 切换执行用户

 
         su 
         - impala

5.2.3 创建数据库

切换到hive shell

 
         hive

新建库

 
         create database testdb;

退出hive shell

 
         quit;

5.2.4 创建角色

切换到impala shell

 
         impala-shell

创建角色

 
         create role ro1;

5.2.5 确认创建的角色

 
         show roles;

5.2.6 用户组和角色的关联

 
         grant role ro1 to group gp1;

5.2.7 角色授权

 
         grant all on database testdb to role ro1;

本文转自 tanzhenchao 51CTO博客，原文链接：http://blog.51cto.com/cmdschool/1843887，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/462796

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

IBM大数据处理平台BigInsights（2）

1，在HDFS文件系统上创建test目录 hadoop fs -mkdir /user/biadmin/test 2，将文件copy到test目录下 hadoop fs -put /var/adm/ibmvmcoc-postinstall/BIlicense_en.txt /user/biadmin/test 3，查看test目录下是否多了这个文件 biadmin@bivm:/etc/ibmvmcoc-postinstall> hadoop fs -ls /user/biadmin/test Found 1 items -rw-r--r-- 1 biadmin biadmin 62949 2016-01-01 22:34 /user/biadmin/test/BIlicense_en.txt 4，运行一个简单的MapReduce程序 WordCount是用JAVA写的针对Hadoop MapReduce的一个小程序，用于统计文本中每个单词的出现次数，关于WordCount更多内容请参考-http://wiki.apache.org/hadoop/WordCount 执行程...

2017-11-21

584

1 前言 Cloudera是基于Apache原生的Hadoop组件进行重新封装和加强，Cloudera可以简化Hadoop组件的部署。更新版本的配置请参阅（CentOS 7）： http://cmdschool.blog.51cto.com/2420395/1916322 2 理论基础 2.1 部署软件架构 1）Oracle JDK 2）Cloudera Manager Server and Agent packages 3）Supporting database software 4）CDH and managed service software 2.2 部署步骤和安装方法 2.2.1 安装方法 A）Cloudera Manager安装程序安装（容易） B）yum源方式安装（中等） C）源代码安装（难）注：本教程使用方法B 2.2.2 部署步骤 1）安装JDK 2）安装并配置数据库 3）安装Cloudera管理服务端 4）安装Cloudera管理代理端 5）安装CDH管理服务软件 6）创建、启动和配置CDH并管理服务 2.3 Cloudera Manager端的相关文件 1 r...

2017-11-21

720

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。