Dremio案例_Hive数据分析
说明
Dremio-3.3.1支持Hive-2.1.1版本
1.Hive批量导入数据
a).创建表
## 创建文本数据导入表 CREATE TABLE IF NOT EXISTS database.table_name( agent_id int, accept_time string, signature string, method_type string, success boolean, bad_app boolean, elapse_time bigint, start_time string, end_time string, jsp_weight_time bigint, ejb_weight_time bigint ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE; ## 创建Json数据导入表 CREATE TABLE IF NOT EXISTS database.table_name( agent_id int, accept_time string, signature string, method_type string, success boolean, bad_app boolean, elapse_time bigint, start_time string, end_time string, jsp_weight_time bigint, ejb_weight_time bigint ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TEXTFILE;
注意:
创建Json数据导入表时,会报错;需首先执行 ADD JAR /home/hive/hcatalog/share/hcatalog/hive-hcatalog-core-2.1.1.jar
## 报错信息 query returned non-zero code: 1, cause: create does not exist
b).导入数据
## 导入本地数据 LOAD DATA LOCAL INPATH './hive/entry_index.txt' INTO TABLE database.table_name; ## 导入HDFS数据 LOAD DATA INPATH '/home/hive/entry_index.txt' INTO TABLE database.table_name;
c).数据验证
2.配置Hive数据源
3.查询数据
SELECT agent_id,signature,method_type, max(elapse_time) maxElapseTime, min(elapse_time) minElapseTime, avg(elapse_time) avgElapseTime, sum(CASE WHEN success IS TRUE THEN 1 ELSE 0 END) succCount, sum(CASE WHEN bad_app IS TRUE THEN 1 ELSE 0 END) badAppCount, sum(ejb_weight_time) sumEjbWeightTime, sum(jsp_weight_time) sumJspWeightTime FROM entry_indx_txt GROUP BY agent_id,signature,method_type
4.保存查询结果
5.数据分析
a).下载文件
b).选择文件
c).连接数据源
d).结果展示
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
SparkStreming:使用Checkpoint创建StreamingContext修改executor-cores、executor-...
在使用SparkStreaming时,使用StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)创建StreamingContext。代码示例如下: // Function to create and setup a new StreamingContext def functionToCreateContext(): StreamingContext = { val conf = new SparkConf().setAppName("UserBrowse") val ssc = new StreamingContext(conf, batchInterval) //通过LogHubCu
- 下一篇
Spark问答合集及解决方法
Spark问答合集及解决方法,转自阿里云开发者问答,大家有问题可以移步阿里云问答模块:https://developer.aliyun.com/ask/ 如何使用spark将kafka主题中的writeStream数据写入hdfs?https://yq.aliyun.com/ask/493211 当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么?https://yq.aliyun.com/ask/493212 从Redshift读入Spark Dataframe(Spark-Redshift模块)https://yq.aliyun.com/ask/493215 在初始化spark上下文后,在运行时更改pyspark的hadoop配置中的aws凭据https://yq.aliyun.com/ask/493217 Window.rowsBetween - 仅考虑满足特定条件的行(例如,不为null)https://yq.aliyun.com/ask/493220 spark的RDD内容直接用saveAsTextFile保存到hdfs时会出现中文乱码现象,但在控制台用fore...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用