-
数据湖构建服务搭配Delta Lake玩转CDC实时入湖
什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。 侵入式 侵入式方案直接...
时间:2020-09-26点击:1025收藏
-
阿里巴巴电商搜索推荐实时数仓演进之路
1. 业务背景 阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景,提供了包括实时大屏、实时报表、实时算法训练、实时A/B实验看板等多种数据应用支持。 数据的价值 我们认为数据处于阿里巴巴搜索推荐的大脑位置,这体现在算法迭代、产品运营和老板决策等多个方面。那么数据是怎样在搜索推荐业务场景中流转的呢?首先是信...
时间:2020-09-26点击:695收藏
-
多数据源一站式入湖
背景 数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog增量数据、日志数据以及已有数仓上的存量数据等.数据湖能够将这些不同来源、不同格式的数据集中存储管理在高性价比的存储如OSS等对象存储中,并对外提供统一的数据分析方式,有效解决了企业中面临的数据孤岛问题,同时大大降...
时间:2020-09-26点击:820收藏
-
SpringCloud 应用在 Kubernetes 上的最佳实践 — 高可用(容量评估)
前言 本文是《SpringCloud 应用在 Kubernetes 上的最佳实践》的第11期,从前面两期开始我们进入到了高可用专题,分别介绍了流量防护和故障演练相关内容。本文将从另一个视角介绍如何保障业务高可用性:即业务准备阶段,提前进行线上的瓶颈定位和容量评估,以便更低成本、更高效/真实的发现系统瓶颈点,做到最精确的容量评估。 高可用体系介绍 首先来介绍下...
时间:2020-09-24点击:532收藏
-
java安全编码指南之:可见性和原子性
简介 java类中会定义很多变量,有类变量也有实例变量,这些变量在访问的过程中,会遇到一些可见性和原子性的问题。这里我们来详细了解一下怎么避免这些问题。 不可变对象的可见性 不可变对象就是初始化之后不能够被修改的对象,那么是不是类中引入了不可变对象,所有对不可变对象的修改都立马对所有线程可见呢? 实际上,不可变对象只能保证在多线程环境中,对象使用的安全性,并...
时间:2020-09-24点击:505收藏
-
【转载】MaxCompute full outer join改写left anti join实践
背景 ods层数据同步时经常会遇到增全量合并的模型,即T-1天增量表 + T-2全量表 = T-1全量表。可以通过full outer join脚本来完成合并,但是数据量很大时非常消耗资源。 insert overwrite table tb_test partition(ds='${bizdate}') select case when a.id is n...
时间:2020-09-24点击:411收藏
-
PyFlink + 区块链?揭秘行业领头企业 BTC.com 如何实现实时计算
大家好,我们是 BTC.com 团队。2020 年,我们有幸接触到了 Flink 和 PyFlink 生态,从团队自身需求出发,完善了团队内实时计算的任务和需求,搭建了流批一体的计算环境。 在实现实时计算的过程中,我们在实践中收获了一些经验,在此分享一些这方面的心路历程。主要分享的大纲如下: 困惑 • 描述 • 思考 • 行动 流批一体的架构 架构 效果 Z...
时间:2020-09-23点击:451收藏
-
复杂系统如何在不停机升级同时保持稳定?你必须考虑以下几个点...
作者:闲鱼技术-兰林 背景 在互联网行业,线上服务的升级更新可谓家常便饭。据统计,在过去的一个季度中闲鱼工程师们执行了千余次发布,总计更新的代码数量超过百万行。 这些发布中,有一些可能只更新了几行代码,而有一些可能执行了整个集群的迁移升级。而无论这些变更的影响面有多大,我们都必须保证线上服务的可用性,用户无感知。本文将以闲鱼搜索服务的迁移升级为例,向大家介绍...
时间:2020-09-23点击:420收藏
-
Serverless 架构下的服务优雅下线实践
应用发布、服务升级一直是一个让开发和运维同学既兴奋又担心的事情。 兴奋的是有新功能上线,自己的产品可以对用户提供更多的能力和价值;担心的是上线的过程会不会出现意外情况影响业务的稳定性。确实,在应用发布和服务升级时,线上问题出现的可能性更高,本文我们将结合 Serverless 应用引擎(以下简称 SAE)就 Serverless 架构下,讨论如何保障上线过程...
时间:2020-09-23点击:434收藏
-
多引擎集成挖掘湖上数据价值
数据湖已经逐步走到了精细化的管理,这意味着原始的计算引擎直接读写存储的方式应当逐步演变为使用标准方式读写数据湖存储。然而“标准方式”实际上并无业界标准,与具体的计算引擎深度绑定,因此,支持计算引擎的丰富程度也就成了衡量数据湖的一个准则。 阿里云数据湖构建服务支持丰富的计算引擎对接,包括但不限于阿里云产品 E-MapReduce(EMR)、MaxCompute...
时间:2020-09-23点击:592收藏
-
阿里宣布成立云原生技术委员会,释放哪些趋势信息?
作者 | 中国电子报记者李佳师 在今年阿里的云栖大会上,除了吸引眼球的云电脑“无影”、机器人“小蛮驴”之外,另外一个值得关注的事情是,阿里成立了云原生技术委员会,全面推动阿里经济体的云原生化。中国工程院院士王坚说,此举将“让阿里云与客户坐在同一架飞机上。”王坚为什么这样说?此举又将对未来的云计算带来哪些影响?这其中有哪些趋势信息需要关注? 云原生到了爆发的元...
时间:2020-09-22点击:463收藏
-
从渲染原理出发探究Flutter内存泄漏(超详细)
作者:闲鱼技术-萧湘 背景 众所周知,内存的高低是评判一款app的性能优劣的重要的指标之一。作为开发者而言,都会尽可能的减少内存的使用,清除无用的内存块,从而减少整个app的内存使用量。这也是历来开发者是追求的目标。然而,开发者难免时常因为语言用法或者写法的缘故,导致该释放而未释放的对象迟迟未释放,从而内存泄漏,消耗殆尽内存空间,从而导致系统崩溃的情况。 如...
时间:2020-09-22点击:512收藏
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- 设置Eclipse缩进为4个空格,增强代码规范
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Mario游戏-低调大师作品
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- MySQL8.0.19开启GTID主从同步CentOS8