袋鼠云研发手记 | 数栈DTinsight:详解FlinkX中的断点续传和实时采集
袋鼠云云原生一站式数据中台PaaS——数栈,覆盖了建设数据中心过程中所需要的各种工具(包括数据开发平台、数据资产平台、数据科学平台、数据服务引擎等),完整覆盖离线计算、实时计算应用,帮助企业极大地缩短数据价值的萃取过程,提高提炼数据价值的能力。
数栈架构图
目前,数栈-离线开发平台(BatchWorks) 中的数据离线同步任务、数栈-实时开发平台(StreamWorks)中的数据实时采集任务已经统一基于FlinkX来实现。数据的离线采集和实时采集基本的原理的是一样的,主要的不同之处是源头的流是否有界,所以统一用Flink的Stream API 来实现这两种数据同步场景,实现数据同步的批流统一。
1、功能介绍
断点续传
断点续传是指数据同步任务在运行过程中因各种原因导致任务失败,不需要重头同步数据,只需要从上次失败的位置继续同步即可,类似于下
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
它是真实的“盗梦空间”?在这里,一切都可能是数据 | 10月12号栖夜读
点击订阅云栖夜读日刊,专业的技术干货,不容错过! 阿里专家原创好文 1.它是真实的“盗梦空间”?在这里,一切都可能是数据 位于杭州阿里巴巴西溪园区旁边的大型商场“亲橙里”2018年正式开业。和传统的线下综合型商场不同的是,亲橙里从规划之初就定位为数字化商场,通过植入自研的IBOS平台完成建筑内的所有子系统的接入,而让建筑和建筑内的设备、空间、人的“在线”是我们数字化的第一个目标。为了实现这个目标,阿里工程师做了哪些动作,一起往下看。阅读更多》》 2.火爆专场 干货来袭 | 淘宝端智能演进和思考 今天分享内容包括三部分,第一是端智能整体趋势和淘宝应用现状,第二是淘宝在应用端智能过程中面临的问题和挑战,以及我们的应对和解决思路,我们构建了端到端的完整技术体系,第三是开源推理引擎 MNN 的最新情况。阅读更多》》 3.从零开始入门 K8s | 可观测性:你的应用健康吗? 一篇干货好文,值得一读!阅读更多》》 4.BDS-HA:构建高可用、低延迟的HBase服务 HBase可以支持百TB数据规模、数百万QPS压力下的毫秒响应,适用于大数据背景下的风控和推荐等在线场景。阿里云HBase服务了多家...
- 下一篇
如何在Hive中创建自定义函数UDF及如何直接通过Impala的同步元数据重用UDF的jar文件
如何在Hive中创建自定义函数UDF及使用 如何在Impala中使用Hive的自定义函数 UDF函数开发 使用Intellij工具开发Hive的UDF函数,进行编译;1.使用Intellij工具通过Maven创建一个Java工程,并添加pom.xml依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>${hive.version}</version> </dependency> 2.Java示例代码如下 import org.apache.hadoop.hive.ql.exec.UDF; /** * @Auther: 截取2018023 前五位(简单的udf对列的字符串处理) * @Date: 2019/3/11 10:00 * @Description: */ public class SubStrUdf extends UDF { public sta...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS关闭SELinux安全模块
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Redis,开启缓存,提高访问速度