数据上云,应该选择全量抽取还是增量抽取?
作者:向师富 转自:阿里巴巴数据中台官网https://dp.alibaba.com
概述
数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动互联网的蓬勃发展,出现了其他类型的数据源,典型的如网站浏览日期、APP浏览日志、IoT设备日志
从技术实现方式来讲,从关系型数据库获取数据,可以细分为全量抽取、增量抽取2种方式,两种方法分别适用于不用的业务场景
增量抽取
- 时间戳方式
用时间戳方式抽取增量数据很常见,业务系统在源表上新增一个时间戳字段,创建、修改表记录时,同时修改时间戳字段的值。 抽取任务运行时,进行全表扫描,通过比较抽取任务的业务时间、时间戳字段来决定抽取哪些数据。
此种数据同步方式,在准确率方面有两个弊端:
1、只能获取最新的状态,无法捕获过程变更信息,比如电商购物场景,如果客户
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
公司如何选择数据库?DynamoDB、Hadoop和MongoDB 大比拼
用户如何选择最能满足当前业务需求的数据库,通常取决于其开发团队的技术和已使用的应用程序。了解哪种数据库系统最适合用户公司的当前和未来需求十分重要。数据库在所有行业和组织机构中都扮演着至关重要的角色。因此,是否能从需求和价格两个维度选择最合适的数据库系统可能成为项目与战略成败间的分水岭。 随着公司数据存储方式的不断扩展,本文旨在比较公司使用的一些更现代的数据库系统——了解DynamoDB,Hadoop和MongoDB可以提供哪些功能将帮助用户针对业务模型做出更好的决策。所有这些系统彼此间不一定都可以互换,而且在某些情况下,它们更像是比较苹果和橙子。但是,由于它们通常都属于NoSQL(译注:NoSQL泛指非关系型的数据库,NoSQL数据库促进了可扩展性,且能够帮助Web应用减少开发时间)的范畴,这几个系统通常会被放在一起比较。 因此,我们先从介绍每个系统开始,之后再进行比较。 什么是DynamoDB ? DynamoDB是Amazon精心打造的一项NoSQL数据库服务,可以作为Amazon Web Services(AWS)产品组合的一部分。 DynamoDB起源于Dynamo系统——一个...
- 下一篇
收益 or 挑战?Serverless 究竟给前端带来了什么
作者 |黄子毅(紫益) 阿里前端技术专家 导读:前端开发者是最早享受到 “Serverless” 好处的群体,因为浏览器就是一个开箱即用、甚至无需为计算付费的环境!Serverless 把前端开发体验带入了后端,利用 FaaS 与 BaaS 打造一套开箱即用的后端开发环境。本文作者将从前端角度出发,为你讲述 Serverless 带来的收益及挑战。 引言 Serverless 是一种 “无服务器架构”,让用户无需关心程序运行环境、资源及数量,只要将精力 Focus 到业务逻辑上的技术。 现在公司已经实现 DevOps 化,正在向 Serverless 迈进,而为什么前端要关注 Serverless? 对业务前端同学: 会改变前后端接口定义规范; 一定会改变前后端联调方式,让前端参与服务器逻辑开发,甚至 Node Java 混部; 大大降低 No
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 设置Eclipse缩进为4个空格,增强代码规范
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题