根据JSON创建对应的HIVE表
本文提供一种用SCALA把JSON串转换为HIVE表的方法,由于比较简单,只贴代码,不做解释。有问题可以留言探讨
package com.gabry.hive
import org.json4s._
import org.json4s.native.JsonMethods._
import scala.io.Source
class Json2Hive{ /** * sealed abstract class JValue *case object JNothing extends JValue // 'zero' for JValue *case object JNull extends JValue *case class JString(s: String) extends JValue *case class JDouble(num: Double) extends JValue *case class JDecimal(num: BigDecimal) extends JValue *case class JInt(num: BigInt) extends JValue *case class JBool(value: Boolean) extends JValue *case class JObject(obj: List[JField]) extends JValue *case class JArray(arr: List[JValue]) extends JValue *type JField = (String, JValue) *create table student_test(id INT, info struct< name:string,age:INT >) *jsonString:{ "people_type":1,"people":{"person_id": 5,"test_count": 5,"para":{"name":"jack","age":6}}} */ private def fieldDelimiter(level:Int) = if ( level == 2 ) " " else ":" private def decodeJson(jv: Any,level:Int,hql:StringBuilder) :Unit = { jv match { case js:JString => hql.append(fieldDelimiter(level)+"string,") case jdo:JDouble => hql.append(fieldDelimiter(level)+"double,") case jde:JDecimal => hql.append(fieldDelimiter(level)+"decimal,") case ji:JInt => hql.append(fieldDelimiter(level)+"bigint,") case jb:JBool => hql.append(fieldDelimiter(level)+"int,") case jf:JField=> hql.append(jf._1) decodeJson(jf._2,level+1,hql) case ja:JArray=> hql.append(level + " struct<") ja.arr.foreach(decodeJson(_,level+1,hql)) hql.append(">") case jo:JObject=> if (level !=0) hql.append(" struct<") jo.obj.foreach(decodeJson(_,level+1,hql)) if ( hql.endsWith(",") ) hql.deleteCharAt(hql.length-1) if (level !=0) hql.append(">,") case JNull=> hql.append(fieldDelimiter(level)+"string,") case _ =>println(jv) } } def toHive(jsonStr:String,tableName:String):String = { val jsonObj = parse(jsonStr) val hql = new StringBuilder() decodeJson(jsonObj,0,hql) "create table %s ( %s )".format(tableName,hql.toString()) } } object Json2Hive{ val json2hive = new Json2Hive() def main (args :Array[String]) : Unit = { if ( args.length != 2 ) println("usage : json2hive jsonFile hiveTableName") val jsonFile = args(0) val hiveTableName = args(1) //val jsonstr ="{ \"people_type\":0,\"people_num\":0.1,\"people\":{\"person_id\": 5,\"test_count\": 5,\"para\":{\"name\":\"jack\",\"age\":6}},\"gender\":1}" //val jsonstr ="{ \"people_type\":0,\"object\":{\"f1\":1,\"f2\":1},\"gender\":1}"
/* 由于JSON串不容易用参数传递,故此处以json文件代替 */ val file = Source.fromFile(jsonFile,"UTF-8")
/* 将文件中的json串转换为对应的HIVE表 */ file.getLines().foreach(line=>println(json2hive.toHive(line.toString,hiveTableName))) file.close() } }
以下是测试结果
create table example ( people_type bigint,people_num double,people struct<person_id:bigint,test_count:bigint,para struct<name:string,age:bigint>>,gender bigint )

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Linux scp命令
scp全称为secure copy,即安全拷贝,是Linux下进行远程拷贝文件的命令。与其相似的命令是cp和rsync,cp只是在本机进行拷贝不能跨服务器,rsync比较占用资源,虽然会比scp快,但是在小文件众多的情况下,rsync会导致磁盘I/O非常高,而scp则可以进行跨服务器传输,并且传输时加密的,同时不会消耗多少系统资源。 语法 scp [参数] [原路径] [目标路径] 参数解释 -1 强制使用协议ssh1 -2 强制使用协议ssh2 -4 强制只使用IPv4寻址 -6 强制只使用IPv6寻址 -B 使用批处理模式(传输过程中不询问传输口令或短语) -C 允许压缩。(将-C标志传递给ssh,从而打开压缩功能) -p 保留原文件的修改时间,访问时间和访问权限。 -q 不显示传输进度条。 -r 递归复制整个目录。 -v 详细方式显示输出。scp和ssh(1)会显示出整个过程的调试信息。这些信息用于调试连接,验证和配置问题。 -c cipher 以cipher将数据...
-
下一篇
[Hadoop]Sqoop 1.4.2中文文档(三)之SqoopJob与其外的操作
一、sqoop job相关命令参数 usage: sqoop job [GENERIC-ARGS] [JOB-ARGS] [-- [<tool-name>] [TOOL-ARGS]] Job management arguments: --create <job-id> Create a new saved job --delete <job-id> Delete a saved job --exec <job-id> Run a saved job --help Print usage instructions --list List saved jobs --meta-connect <jdbc-uri> Specify JDBC connect string for the metastore --show <job-id> Show the parameters for a saved job --verbose Print more information while working Generic Ha...
相关文章
文章评论
共有0条评论来说两句吧...