实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建ORC源表
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建HDFS源表
本页目录 创建 HDFS 源表 什么是HDFS 读HDFS某个路径下所有CSV文件 读取HDFS某个目录下所有ORC文件示例 WITH参数 创建 HDFS 源表 什么是HDFS HDFS是Hadoop的分布式文件系统。HDFS可以作为Blink Batch的源表和结果表。HDFS上可以存储各种文件类型,目前Blink支持对CSV/Parquet/ORC文件格式的解析。以CSV为例,说明hdfs source用法 DDL定义 create table hdfs_source( name varchar, age BIGINT, birthday BIGINT ) with ( type='csv', path='hdfs://root/stest/test.csv', lineDelimiter='\n', fieldDelimiter='|' ); 读HDFS某个路径下所有CSV文件 大部分情况下,HDFS上的文件都是以表的形式保存的,表下面还有分区,例如: $hadoop fs -ls /user/hive/warehouse/xxx/table1/ Found 989 items ...
- 下一篇
创建ORC结果表
本页目录 创建ORC结果表 DDL定义 WITH参数 创建ORC结果表 ORC(Optimized Row Columnar)是Hadoop生态圈中的一种列式存储格式。ORC产生于2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩,以降低存储空间的消耗。目前ORC也被Spark SQL、Presto等查询引擎支持。但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。 DDL定义 Flink支持使用ORC格式文件作为输出,示例代码如下。 create table orc_source( id int, user_name VARCHAR, content VARCHAR, primary key(id) ) with (...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果