-
【数据湖开发治理篇】——数据湖开发治理平台DataWorks
数据湖的定义: wikipedia中对于数据湖的定义是:“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of...
时间:2020-09-27点击:927收藏
-
Serverless Spark的弹性利器 - EMR Shuffle Service
背景与动机 计算存储分离下的刚需 计算存储分离是云原生的重要特征。通常来讲,计算是CPU密集型,存储是IO密集型,他们对于硬件配置的需求是不同的。在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。在计算存储分离架构中,可以独立配置计算机型和存储机型,具有极大的灵活性,从而降低成本。 存储计算分离是新型的...
时间:2020-09-27点击:908收藏
-
看动画学算法之:排序-基数排序
简介 之前的文章我们讲了count排序,但是count排序有个限制,因为count数组是有限的,如果数组中的元素范围过大,使用count排序是不现实的,其时间复杂度会膨胀。 而解决大范围的元素排序的办法就是基数排序。 基数排序的例子 什么是基数排序呢? 考虑一下,虽然我们不能直接将所有范围内的数字都使用count数组进行排序,但是我们可以考虑按数字的位数来进...
时间:2020-09-26点击:715收藏
-
运维大杀器来了,未来云上服务器或将实现无人值守
云原生时代下,企业的IT运维面临架构复杂化、业务需求多样化和运维数据海量化等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。 9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,分享了阿里云弹性计算团队如何利用人工智能技术赋能运...
时间:2020-09-26点击:724收藏
-
云原生计算引擎挑战与解决方案
云原生背景介绍与思考 图一是基于ECS底座的EMR架构,这是一套非常完整的开源大数据生态,也是近10年来每个数字化企业必不可少的开源大数据解决方案。主要分为以下几层: ECS物理资源层,也就是Iaas层 数据接入层,例如实时的Kafka,离线的Sqoop 存储层,包括HDFS和OSS,以及EMR自研的缓存加速JindoFS 计算引擎层,包括熟知的Spark,...
时间:2020-09-26点击:968收藏
-
数据湖构建服务搭配Delta Lake玩转CDC实时入湖
什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。 侵入式 侵入式方案直接...
时间:2020-09-26点击:1279收藏
-
阿里巴巴电商搜索推荐实时数仓演进之路
1. 业务背景 阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团淘宝、淘宝特价版、饿了么等多个电商业务的实时数仓场景,提供了包括实时大屏、实时报表、实时算法训练、实时A/B实验看板等多种数据应用支持。 数据的价值 我们认为数据处于阿里巴巴搜索推荐的大脑位置,这体现在算法迭代、产品运营和老板决策等多个方面。那么数据是怎样在搜索推荐业务场景中流转的呢?首先是信...
时间:2020-09-26点击:890收藏
-
多数据源一站式入湖
背景 数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog增量数据、日志数据以及已有数仓上的存量数据等.数据湖能够将这些不同来源、不同格式的数据集中存储管理在高性价比的存储如OSS等对象存储中,并对外提供统一的数据分析方式,有效解决了企业中面临的数据孤岛问题,同时大大降...
时间:2020-09-26点击:1015收藏
-
SpringCloud 应用在 Kubernetes 上的最佳实践 — 高可用(容量评估)
前言 本文是《SpringCloud 应用在 Kubernetes 上的最佳实践》的第11期,从前面两期开始我们进入到了高可用专题,分别介绍了流量防护和故障演练相关内容。本文将从另一个视角介绍如何保障业务高可用性:即业务准备阶段,提前进行线上的瓶颈定位和容量评估,以便更低成本、更高效/真实的发现系统瓶颈点,做到最精确的容量评估。 高可用体系介绍 首先来介绍下...
时间:2020-09-24点击:749收藏
-
【转载】MaxCompute full outer join改写left anti join实践
背景 ods层数据同步时经常会遇到增全量合并的模型,即T-1天增量表 + T-2全量表 = T-1全量表。可以通过full outer join脚本来完成合并,但是数据量很大时非常消耗资源。 insert overwrite table tb_test partition(ds='${bizdate}') select case when a.id is n...
时间:2020-09-24点击:631收藏
-
PyFlink + 区块链?揭秘行业领头企业 BTC.com 如何实现实时计算
大家好,我们是 BTC.com 团队。2020 年,我们有幸接触到了 Flink 和 PyFlink 生态,从团队自身需求出发,完善了团队内实时计算的任务和需求,搭建了流批一体的计算环境。 在实现实时计算的过程中,我们在实践中收获了一些经验,在此分享一些这方面的心路历程。主要分享的大纲如下: 困惑 • 描述 • 思考 • 行动 流批一体的架构 架构 效果 Z...
时间:2020-09-23点击:613收藏
-
复杂系统如何在不停机升级同时保持稳定?你必须考虑以下几个点...
作者:闲鱼技术-兰林 背景 在互联网行业,线上服务的升级更新可谓家常便饭。据统计,在过去的一个季度中闲鱼工程师们执行了千余次发布,总计更新的代码数量超过百万行。 这些发布中,有一些可能只更新了几行代码,而有一些可能执行了整个集群的迁移升级。而无论这些变更的影响面有多大,我们都必须保证线上服务的可用性,用户无感知。本文将以闲鱼搜索服务的迁移升级为例,向大家介绍...
时间:2020-09-23点击:599收藏
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- MySQL数据库在高并发下的优化方案
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能