关系型数据抽取到hive中
操作步骤
1.建立外表
CREATE external TABLE t_rk_baseinfo_5kwexternal
(
ROW_ID STRING, SYNC_SIGN STRING, SYNC_ERROR_DESC STRING, OperateType STRING, SYNC_Date STRING, XiaQuCode STRING, Name STRING, NameEN STRING, NameUsed STRING, Sex STRING, Nation STRING, Birthday STRING, BirthPlace STRING, Age STRING, Native STRING, Nationality STRING, IdcardType STRING, Idcard STRING, IdcardBeginDate STRING, IdcardEndDate STRING, Political STRING, MaritalStatus STRING, Faith STRING, MilitaryService STRING, Height STRING, Weight STRING, BloodType STRING, Mobile STRING, Telephone STRING, RegionAddress STRING, Address STRING, PostCode STRING, EMail STRING, Health STRING, FamliyDiseaseHis STRING, IdDeath STRING, DeathDate STRING, Type STRING, PersonGuid STRING, HabCode STRING, AgeArea STRING, HouseholdType STRING, Education STRING, baidulat STRING, baidulng STRING)
row format delimited fields terminated by ‘\t’;
;
2.文件抽取至HDFS
3.创建事务表
clustered by (ROW_ID) into 3 buckets
stored as orc TBLPROPERTIES (‘transactional’=’true’);
备用:LOAD DATA INPATH ‘/path/to/local/files’ into table t_rk_baseinfo;
4.hdfs到外表
5.外表到事务表
insert into 事务表 select * from 外表;
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
HBase运维基础——元数据逆向修复原理
背景 鉴于上次一篇文章——“云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据”的读者反馈,对HBase的逆向工程比较感兴趣,并咨询如何使用相应工具进行运维等等。总的来说,就是想更深层理解HBase运维原理,提高运维HBase生产环境的能力,应对各种常见异常现象。不同的读者对hbase的了解程度不同,本文不打算着重编写一个工具怎么使用,而是从HBase的运维基础知识介绍开始讲解。为了能帮助大部分读者提高HBase运维能力,后续会写个“HBase运维系列” 专题系列文章,欢迎到最下方扫码关注钉钉交流。 介绍 相信很多自建HBase的企业会经常碰到各种各样的hbase运维问题。比如使用HBase的时候,HBase写入一段时间后开始RegionServer节点开始挂掉,重启RegionServer发现启动很慢
- 下一篇
阿里云南京云栖释放技术红利 核心产品最高降价50%
4月26日,在2018云栖大会·南京峰会上,阿里云宣布新一轮的价格调整。此次调整包含了Elasticsearch、分析型数据库、实人认证、开放搜索等多项产品,最高降幅达到50%。 阿里云Elasticsearch产品基于开源版Elasticsearch深度定制、集成X-Pack商业插件以及Kibana,为客户提供更好的稳定性、更高的性能、更快速的弹性伸缩能力、以及更丰富的功能,包括标准搜索功能、企业级权限管控、可视化数据分析、安全监控告警、自动报表生成、机器学习等功能。 在南京峰会上,阿里云Elasticsearch产品宣布,包年包月实例租用费最高下调30%,存储价格不变。目前提供多达6种规格的计算节点以及SSD的存储服务,支持小时级计费的按量付费方式,秒级交付和弹性扩容的特性将更好地满足大中型企业高速增长的业务需求。 阿里云分析型数据库(AnalyticDB),是一种高并发低延时的PB级实时数据仓库,全面兼容MySQL协议以及SQL:2003 语法标准,可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索;让用户可以使用标准 SQL 、现有的商业智能(BI) 工具和ETL工具经济...
相关文章
文章评论
共有0条评论来说两句吧...