实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建HDFS源表
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
实时计算Flink —— 独享模式 —— Data Lake典型场景
数据湖 Data Lake并不是一个新的概念,早在2011年就被提出,作为数仓的补充。数据湖是一个中心化的存储,能够存储任意规模的结构化与半结构化数据。数据湖中的数据,不必经过结构化过程,即可进行各种类型的分析。如可视化,大数据处理,实时数据分析和机器学习。 数据湖与数仓区别 与数仓相比,数据湖中数据有以下几个特点。 数据存储多样化 RDBMS:RDS/ADS… 数仓:Hive/ODPS… Queue:SLS/MQ/Kafka… 文件存储:OSS/HDFS… 数据格式多样化 RDBMS中结构化数据 JSON/XML/CSV等半结构化数据 图像/音频/视频等非结构化数据 数据计算多样化 数据Schema不固定 异构数据源计算,无需将数据导入统一存储。 支持SQL进行大数据分析,同时也可直接对数据进行全文检索/机器学习等。 在数据湖场景中,实时计算有其独特优势,可完美解决数据湖场景下,结构化和半结构化数据的异构数据源计算和ETL等问题。下面以IoT场景举例说明数据湖的优势。 具体场景 典型工业化IoT场景,传感器采集厂房中各地点的温度,湿度,压力等信息,并上传到云端做环境监控及数据分析。整...
- 下一篇
实时计算Flink > 独享模式 > Batch(试用) > 创建源表 —— 创建ORC源表
本页目录 创建 ORC 源表 DDL定义 WITH参数 创建 ORC 源表 ORC(Optimized Row Columnar)是一种Hadoop生态圈中的列式存储格式。产生于2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗,目前也被Spark SQL、Presto等查询引擎支持,但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。 DDL定义 Flink支持使用ORC格式文件作为输入源,示例代码如下: create table orc_source( id int, user_name VARCHAR, content VARCHAR, primary key(id) ) with ( ty...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS关闭SELinux安全模块
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度