hive数据迁移
比如需要把生产的hive集群数据迁移到另一个集群,hive提供了2个命令工具,可以实现表的批量迁移。
- 设置默认需要导出的hive数据库
在hive目录/etc/alternatives/hive-conf下添加.hiverc vi ~/.hiverc use test;
- 创建数据临时目录
hdfs dfs -mkdir /tmp/test
- 生成导出数据脚本
hive -e "show tables " | awk '{printf "export table %s to |/tmp/hive-export/%s|;\n",$1,$1}' | sed "s/|/'/g" > /home/hive/qcf/export.hql
- 手工导出数据到hdfs
hive -f export.hql
- 下载hdfs数据到本地并传送到目标hadoop集群的/tmp/ test 目录 先get到本地:
hdfs dfs -get /tmp/ test /*
- 然后put到目标集群上
hdfs dfs -put * /tmp/test
- 构造导入语句
cp export.sql import.sql sed -i 's/export table/import table/g' import.sql sed -i 's/ to / from /g' import.sql
- 导入数据
在hive目录/etc/alternatives/hive-conf下添加.hiverc vi ~/.hiverc use test; hive -f import.sql

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源大数据周刊-第19期
阿里云E-Mapreduce动态 E-Mapreduce团队 1.5.0版本(正在研发) 增加集群整体运行情况的仪表盘 访问OSS不需要写id、key,增强安全性 集群其中后,可以重启、修改配置及安装软件 1.6.0版本 交互式查询(支持hive、spark) 资讯 马云:云计算、大数据、人工智能 未来三十年会成基本公共服务未来三十年,云计算、大数据、人工智能,都会成为基本的公共服务,各行各业都会经受巨大的变化。”阿里巴巴董事局主席马云18日出席2016中国保险业发展年会时表示,“物流业、制造业、服务业、金融业、教育,所有的行业,在这场技术革命之下改变是不可避免的。” E-MapReduce支持计算与存储分离,成本下降1倍众观历史,分久必合、合久必分,在计算机历史中也很类似,如今,Hadoop也许到了计算与存储分离的阶段。 13个应用案例,讲述最真实的
- 下一篇
基于Spark和Hive进行的豆瓣电影数据分析
写在前边的话: 算是自己做的一个小课题吧,自己搭建平台,自己爬取数据,自己进行数据清洗和分析,自己进行可视化展示,写这篇博客不为别的,只是记录下自己做这个课题的整个过程,大神们勿喷 环境说明:hadoop2.7集群,包含Hbase,Hive,Spark,Sqoop,Mahout组件 过 程:平台部署->数据采集-> 数据存储->数据ETL->数据分析->可视化 课题github地址:https://github.com/Thinkgamer/Douban_Movies_Analysi (主要是源代码部分) 1:平台部署 看之前的博客:点击阅读 2:数据采集 数据来源,豆瓣电影,以Tag采集入口,对应标签采集对应的电影,使用Python3.4.3 + BeautifulSoup4.4.1 + urllib进行数据 的采集,本地存储形式为csv格式,代码结构为 -DouBan-Spider #项目根目录 ----download #下载网页源代码模块 --------__init__.py -------down_htm...
相关文章
文章评论
共有0条评论来说两句吧...