实时计算Flink > 独享模式 > Batch（试用） > 创建源表 —— 创建ORC源表

2018-11-13 633

创建 ORC 源表

ORC(Optimized Row Columnar)是一种Hadoop生态圈中的列式存储格式。产生于2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个单纯的列式存储格式，仍然是首先根据行组分割整个表，在每一个行组内进行按列存储。ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩以降低存储空间的消耗，目前也被Spark SQL、Presto等查询引擎支持，但是Impala对于ORC目前没有支持，仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。

DDL定义

Flink支持使用ORC格式文件作为输入源，示例代码如下：

create table orc_source(
id int,
user_name VARCHAR,
content VARCHAR,
primary key(id)
) with (
type='orc',
filePath='hdfs://hdfshome/orcpath/test'
);

WITH参数

参数	注释说明	备注
filePath	文件路径	目前支持hdfs、oss两种文件系统。
enumerateNestedFiles	递归读取目录下的所有文件	true - 递归读取目录下所有文件。默认为false。

本文转自实时计算—— 创建ORC源表

微信关注我们

原文链接：https://yq.aliyun.com/articles/669121

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实时计算Flink > 独享模式 > Batch（试用） > 创建源表 —— 创建HDFS源表

本页目录创建 HDFS 源表什么是HDFS 读HDFS某个路径下所有CSV文件读取HDFS某个目录下所有ORC文件示例 WITH参数创建 HDFS 源表什么是HDFS HDFS是Hadoop的分布式文件系统。HDFS可以作为Blink Batch的源表和结果表。HDFS上可以存储各种文件类型，目前Blink支持对CSV/Parquet/ORC文件格式的解析。以CSV为例，说明hdfs source用法 DDL定义 create table hdfs_source( name varchar, age BIGINT, birthday BIGINT ) with ( type='csv', path='hdfs://root/stest/test.csv', lineDelimiter='\n', fieldDelimiter='|' ); 读HDFS某个路径下所有CSV文件大部分情况下，HDFS上的文件都是以表的形式保存的，表下面还有分区，例如： $hadoop fs -ls /user/hive/warehouse/xxx/table1/ Found 989 items ...

2018-11-14

687

本页目录创建ORC结果表 DDL定义 WITH参数创建ORC结果表 ORC(Optimized Row Columnar)是Hadoop生态圈中的一种列式存储格式。ORC产生于2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个单纯的列式存储格式，仍然是先根据行组分割整个表，在每一个行组内进行按列存储。ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩，以降低存储空间的消耗。目前ORC也被Spark SQL、Presto等查询引擎支持。但是Impala对于ORC目前没有支持，仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。 DDL定义 Flink支持使用ORC格式文件作为输出，示例代码如下。 create table orc_source( id int, user_name VARCHAR, content VARCHAR, primary key(id) ) with (...

2018-11-14

608

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。