Dremio案例_Hive数据分析
说明
Dremio-3.3.1支持Hive-2.1.1版本
1.Hive批量导入数据
a).创建表
## 创建文本数据导入表
CREATE TABLE IF NOT EXISTS database.table_name(
agent_id int,
accept_time string,
signature string,
method_type string,
success boolean,
bad_app boolean,
elapse_time bigint,
start_time string,
end_time string,
jsp_weight_time bigint,
ejb_weight_time bigint
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
## 创建Json数据导入表
CREATE TABLE IF NOT EXISTS database.table_name(
agent_id int,
accept_time string,
signature string,
method_type string,
success boolean,
bad_app boolean,
elapse_time bigint,
start_time string,
end_time string,
jsp_weight_time bigint,
ejb_weight_time bigint
)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
注意:
创建Json数据导入表时,会报错;需首先执行 ADD JAR /home/hive/hcatalog/share/hcatalog/hive-hcatalog-core-2.1.1.jar
## 报错信息
query returned non-zero code: 1, cause: create does not exist
b).导入数据
## 导入本地数据
LOAD DATA LOCAL INPATH './hive/entry_index.txt' INTO TABLE database.table_name;
## 导入HDFS数据
LOAD DATA INPATH '/home/hive/entry_index.txt' INTO TABLE database.table_name;
c).数据验证
2.配置Hive数据源
3.查询数据
SELECT agent_id,signature,method_type,
max(elapse_time) maxElapseTime,
min(elapse_time) minElapseTime,
avg(elapse_time) avgElapseTime,
sum(CASE WHEN success IS TRUE THEN 1 ELSE 0 END) succCount,
sum(CASE WHEN bad_app IS TRUE THEN 1 ELSE 0 END) badAppCount,
sum(ejb_weight_time) sumEjbWeightTime,
sum(jsp_weight_time) sumJspWeightTime
FROM entry_indx_txt
GROUP BY agent_id,signature,method_type
4.保存查询结果
5.数据分析
a).下载文件
b).选择文件
c).连接数据源
d).结果展示

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
SparkStreming:使用Checkpoint创建StreamingContext修改executor-cores、executor-...
在使用SparkStreaming时,使用StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)创建StreamingContext。代码示例如下: // Function to create and setup a new StreamingContext def functionToCreateContext(): StreamingContext = { val conf = new SparkConf().setAppName("UserBrowse") val ssc = new StreamingContext(conf, batchInterval) //通过LogHubCu
-
下一篇
Spark问答合集及解决方法
Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.aliyun.com/ask/ 如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.aliyun.com/ask/493211 当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么?https://yq.aliyun.com/ask/493212 从Redshift读入Spark Dataframe(Spark-Redshift模块)https://yq.aliyun.com/ask/493215 在初始化spark上下文后,在运行时更改pyspark的hadoop配置中的aws凭据https://yq.aliyun.com/ask/493217 Window.rowsBetween - 仅考虑满足特定条件的行(例如,不为null)https://yq.aliyun.com/ask/493220 spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象,但在控制台用fore...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- MySQL数据库在高并发下的优化方案
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19