Alluxio使用——Hive篇
1.服务启停
Zookeeper
./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.sh stop
Hadoop
./hadoop/sbin/start-dfs.sh ./hadoop/sbin/stop-dfs.sh
Hive
./hive/bin/hive ./hive/bin/hive --service metastore -p 9083
Alluxio
./alluxio/bin/alluxio local SudoMount
2.Alluxio操作
下载测试数据
稳定的基准数据集。1700部电影的1000名用户获得100,000评级。发布于4/1998。
稳定的基准数据集。238,000个用户将27,000个评级和465,000个标签应用程序应用于27,000部电影。包括标签基因组数据,在1,100个标签上有1200万个相关性分数。2015年4月发布; 更新10月2016以更新links.csv并添加标签基因组数据。
创建目录
./bin/alluxio fs mkdir /ml-100k ./bin/alluxio fs chmod -R 777 /ml-100k
导入测试数据
## 解压测试数据包 unzip ml-100k.zip ## 导入数据 ./bin/alluxio fs copyFromLocal ml-100k/u.user alluxio://alluxio_master_hostname:19998/ml-100k
验证数据
3.Hive操作
Jar依赖
将alluxio的客户端jar复制到hive的lib中
cp ./alluxio/client/alluxio-2.0.0.client.jar ./hive/lib
创建hive内部表
CREATE TABLE u_user ( userid INT, age INT, gender CHAR(1), occupation STRING, zipcode STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LOCATION 'alluxio://alluxio_master_hostname:19998/ml-100k';
查询数据
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Alluxio使用——HBase篇
1.服务启停 Zookeeper ./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg ./zookeeper/bin.zkServer.sh stop Hadoop ./hadoop/sbin/start-dfs.sh ./hadoop/sbin/stop-dfs.sh HBase ./hbase/bin/start-hbase.sh ./hbase/bin/stop-hbase.sh ./hbase/bin/hbase-daemon.sh start master ./hbase/bin/hbase-daemon.sh start regionserver 1 ./hbase/bin/hbase-daemon.sh stop master ./hbase/bin/hbase-daemon.sh stop regionserver 1 Alluxio ./alluxio/bin/alluxio local SudoMount 2.HBase配置 Apache HBase可以通过Hadoop文件系统来使用Alluxio 修...
- 下一篇
好程序员大数据学习路线之zookeeper干货
好程序员大数据学习路线之zookeeper干货,上周学习了zookeeper,一开始感觉不容易理解,后来随着学习的深入,渐渐地明白了很多知识,下面慢慢来介绍zookeeper。zookeeper是什么???zookeeper是一个分布式协调服务,就是为用户的分布式应用程序提供协调服务的。zookeeper是为其他的分布式程序提供服务的zookeeper本身就是一个分布式程序(只要半数以上节点存活,就能提供服务)zookeeper的特性:zookeeper:一个leader,多个follower全局数据一致性:每个server都保存一份相同的数据,client无论连接那台服务器,都可以得到相同的数据分布式读写,更新请求转发,由leader实施数据更新的写操作更新请求按顺序执行,来自同一个client的更新请求会按照其发送的顺序来执行数据更新的原子性,一次数据要么更新成功,要么失败。实时性,在一定时间范围内,client能读到最新的数据。应用场景:统一命名服务;配置管理;集群管理;共享锁;队列管理;Zookeeper 作为 Hadoop 项目中的一个子项目,是 Hadoop 集群管理的一个...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6