实时计算Flink > 独享模式 > Batch（试用） > 创建源表 —— 创建HDFS源表

2018-11-13 710

本页目录

创建 HDFS 源表

什么是HDFS

HDFS是Hadoop的分布式文件系统。HDFS可以作为Blink Batch的源表和结果表。HDFS上可以存储各种文件类型，目前Blink支持对CSV/Parquet/ORC文件格式的解析。以CSV为例，说明hdfs source用法

DDL定义

create table hdfs_source(
name varchar,
age BIGINT,
birthday BIGINT
) with (
type='csv',
path='hdfs://root/stest/test.csv',
lineDelimiter='\n',
fieldDelimiter='|'
);

读HDFS某个路径下所有CSV文件

大部分情况下，HDFS上的文件都是以表的形式保存的，表下面还有分区，例如：

$hadoop fs -ls /user/hive/warehouse/xxx/table1/
Found 989 items
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180814
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180815

读表table1的某个分区数据的示例代码如下：

create table hdfs_source(
name varchar,
age BIGINT,
birthday BIGINT
) with (
type='csv',
path='hdfs://hdfs_name/user/hive/warehouse/xxx/table1/dt=20180814',
lineDelimiter='\n',
fieldDelimiter='|'
);
create table test_sink(
name varchar,
age bigint,
birthday bigint
) with (
type='print'
)
insert into test_sink
select
name,
age,
birthday
from hdfs_source

目前CSV文件暂不支持递归读取多级目录，只能读某个子目录下的所有文件

读取HDFS某个目录下所有ORC文件示例

HDFS上文件可存储为压缩格式orc/parquet，读取这两类文件时，可递归读取某个目录下所有文件，例如，某个表在hdfs上的保存目录如下：

$hadoop fs -ls /user/hive/warehouse/xxx/table1/
Found 989 items
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180814
drwxrwxrwx - serving supergroup 0 2017-03-09 15:44 /user/hive/warehouse/xxx/table1/dt=20180815

现要读取整个表table1的所有数据，示例代码如下：

create table hdfs_orc_source(
name varchar,
age BIGINT,
birthday BIGINT
) with (
type='orc',
path='hdfs://hdfs_name/user/hive/warehouse/xxx/table1/dt=20180814',
enumerateNestedFiles='true'
);
create table test_sink(
name varchar,
age bigint,
birthday bigint
) with (
type='print'
)
insert into test_sink
select
name,
age,
birthday
from hdfs_source

enumerateNestedFiles 参数可递归

WITH参数

目前只支持tuple模式的topic

参数	注释说明	备注
type	hdfs上文件类型	目前blink支持对CSV/Parquet/ORC文件格式的解析
path	文件在HDFS上路径
lineDelimiter	文件的行分隔符	默认’\n’
fileSplitMinSize	文件切分大小，控制并发	默认33554432000L
isContinuousStream		默认true
fieldDelimiter	文件的列分隔符	默认’,’

本文转自实时计算—— 创建HDFS源表

微信关注我们

原文链接：https://yq.aliyun.com/articles/669119

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实时计算Flink —— 独享模式 —— Data Lake典型场景

数据湖 Data Lake并不是一个新的概念，早在2011年就被提出，作为数仓的补充。数据湖是一个中心化的存储，能够存储任意规模的结构化与半结构化数据。数据湖中的数据，不必经过结构化过程，即可进行各种类型的分析。如可视化，大数据处理，实时数据分析和机器学习。数据湖与数仓区别与数仓相比，数据湖中数据有以下几个特点。数据存储多样化 RDBMS：RDS/ADS… 数仓：Hive/ODPS… Queue：SLS/MQ/Kafka… 文件存储：OSS/HDFS… 数据格式多样化 RDBMS中结构化数据 JSON/XML/CSV等半结构化数据图像/音频/视频等非结构化数据数据计算多样化数据Schema不固定异构数据源计算，无需将数据导入统一存储。支持SQL进行大数据分析，同时也可直接对数据进行全文检索/机器学习等。在数据湖场景中，实时计算有其独特优势，可完美解决数据湖场景下，结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明数据湖的优势。具体场景典型工业化IoT场景，传感器采集厂房中各地点的温度，湿度，压力等信息，并上传到云端做环境监控及数据分析。整...

2018-11-14

960

本页目录创建 ORC 源表 DDL定义 WITH参数创建 ORC 源表 ORC(Optimized Row Columnar)是一种Hadoop生态圈中的列式存储格式。产生于2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个单纯的列式存储格式，仍然是首先根据行组分割整个表，在每一个行组内进行按列存储。ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩以降低存储空间的消耗，目前也被Spark SQL、Presto等查询引擎支持，但是Impala对于ORC目前没有支持，仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。 DDL定义 Flink支持使用ORC格式文件作为输入源，示例代码如下： create table orc_source( id int, user_name VARCHAR, content VARCHAR, primary key(id) ) with ( ty...

2018-11-14

653

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。