每日一博 | 实时数据湖在字节跳动的实践
对实时数据湖的解读 数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。 数据湖的概念最早是在 Hadoop World 大会上提出的。当时的提出者给数据湖赋予了一个非常抽象的含义,他认为它能解决数据集市面临的一些重要问题。 其中最主要的两个问题是:首先,数据集市只保留了部分属性,只能解决预先定义好的问题;另外,数据集市中反映细节的原始数据丢失了,限制了通过数据解决问题。从解决问题的角度出发,希望有一个合适的存储来保存这些明细的、未加工的数据。因此在这个阶段,人们对数据湖的解读更多的是聚焦在中心化的存储之上。 不同的云厂商也把自己的对象产存储产品称为数据湖。比如 AWS 在那个阶段就强调数据湖的存储属性,对应的就是自家的对象存储 S3。在 Wiki 的定义中也是强调数据湖是一个中心化存储,可以存海量的不同种类的数据。但是当对象存储满足了大家对存储海量数据的诉求之后,人们对数据湖的解读又发生了变化。 第二阶段,对数据湖的解读更多的是从开源社区和背后的商业公司发起的。比如 Databricks 作为一个云中立的产品,它将云厂商的这个对象存...


