数据湖只是个哗众取宠的伪概念吗?
数据湖是个伪概念吗?最直接的答案是是的,在这篇文章中我会告诉你原因。 最大的问题在于“数据湖”这个词已经不堪重负,被供应商和分析师们赋予了太多不同的含义。如果有什么东西不属于传统的数据仓库架构,那就把它归结为某一种数据湖。最后数据湖就成了一个不清楚的、模糊的概念。众所周知,模糊的概念会导致模糊的思路,最后做出很差的决定。 我见过很多关于数据湖的定义,在本文中我们会挨个讨论。有时候大家提到数据湖时指的只是某一个概念,有的时候又会把几个概念混起来谈。有的人谈数据湖时却指的是下面的所有概念。 作为原始数据水库的数据湖 这是最早提出数据湖概念时的含义。从这个概念看,数据湖与数据仓库的一个中转区域没有太大的不同。在中转区域中,我们从源系统复制一份数据过来。把这份数据向下游传输和整合,就形成了数据仓库。一个原始数据水库可以用来替换掉一个企业级数据仓库的中转区。 但在中转区和原始数据水库的概念之间还有着许多重要的不同。 从传统意义上讲,一个中转区域只会有一个消费者:生成数据仓库的下游进程。但原始数据水库却有多个消费者,不只是生成数据仓库的ETL,还有用于自助服务和高级分析的沙箱、企业级搜索引擎、主数...