图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进-低调大师

图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进

2024-07-16 332

最近，数据库行业唯一在世的图灵奖得主 Michael Stonebraker 和 CMU 知名教授 Andrew Pavlo (Andy) 教授联合发表了数据库论文《What Goes Around Comes Around... And Around》。过去 20 年，数据库领域诞生了众多新技术，这对数据库届的王炸组合对这些技术的看法是怎样的呢？

由图灵奖得主 Michael Stonebraker 和 CMU 知名教授 Andrew Pavlo （Andy）教授创作的最新论文《What Goes Around Comes Around...And Around...》，标题着实特别，“What Goes Around Comes Around”中文翻译过来是「种瓜得瓜，种豆得豆」、「因果报应」。而后面的 Around，暗示着这其实是一篇续作。

早在 2006 年，Stonebraker 教授和他的学生，UC 伯克利的 Joseph M. Hellerstein 合著了一篇《What Goes Around Comes Around》，而 Andy 教授也是这篇文章的粉丝。

这篇 20 年前的文章创作的起因，是当时数据库界兴起了一股“反关系型”，“反 SQL” 的浪潮。Stonebraker 和 Joseph 两位教授认为，关系模型和 SQL 因其击败了包括层次文件系统、面向对象数据库和 XML 数据库等在内的其他理念，成为了数据库管理系统的最佳选择。

这次的新论文，发表在 2024 年 6 月的 SIGMOD Record 上，Stonebraker 与 Andy 两位教授分析了过去 20 年数据库的演进，展望了数据库技术的发展。那么，2005 年到现在，数据库界发生了哪些事呢？下文将对这篇论文进行摘录，帮助大家了解这篇论文的主要内容。

1 数据库近 20 年的发展

论文的 Introduction 部分，首先呼应了一下当年的论文，列出了数据库从 1960 年的层次结构到 2000 年诞生的半结构化数据模型的演进史。

接着，在论文中分析了数据库近 20 年的发展，分别从数据模型&查询语言（Data Models & Query Languages)，以及系统架构（System Architectures) 两部分入手进行分析。

1.1 数据模型和查询语言 / Data Models & Query Languages

在这一章节，两位教授将数据库中的数据模型和查询语言的研究和开发分为八个类别，包括 MapReduce、键值存储、文档数据库、列式数据库、文本搜索引擎、数组数据库、向量数据库和图数据库。

在谈及 MapReduce 时， 两位教授认为：MR 的缺陷如此之大，以至于尽管其开发者社区充满热情，它也无法得救。与此同时，分布式 RDBMS 正在蓬勃发展，特别是在云上。HDFS 已经失去它的光彩，因为企业意识到有更好的分布式存储替代品。

关于向量数据库， 两位教授预计，向量 DBMS 将经历与文档 DBMS 类似的演变过程，通过增加包括 SQL、事务、可扩展性等功能，变得更像关系型数据库。而关系型数据库厂商在现有的关系型数据库中添加向量索引也将成为趋势。

两位教授认为：

non-SQL、非关系型系统要么是小众市场，要么正在迅速成为SQL/RM 系统。具体来说：

MapReduce： 多年前就已经消亡，目前充其量是“遗留技术”。
键值存储： 许多键值系统要么已经发展成为关系型系统，要么仅被用于特定问题。这些系统通常可以被现代高性能关系型数据库管理系统所替代或超越。
文档数据库： 这些 NoSQL 系统正与关系型数据库管理系统往相类似的发展轨道上前进。随着时间的推移，这两种系统之间的差异已经减少，并且预计在未来将几乎没有区别。
列式数据库： 将仍是小众市场。如果没有谷歌的存在，本文可能不会讨论这个类别。
文本搜索引擎： 这些系统用于多存储架构中的文本字段。如果关系型数据库管理系统在搜索方面有更好的解决方案，那么这些就不必是单独的产品。
数组数据库： 科研领域的应用将继续忽视关系型数据库管理系统，转而使用定制的数组系统。由于即使关系数据库有新的 SQL/MDA 增强功能，但却无法高效地存储和分析数组，数组数据库可能变得更加重要。
向量数据库： 它们是专用的数据库管理系统，具有加速最近邻搜索的索引。关系型数据库应该很快能够提供对这些数据结构和搜索方法的原生支持，使用它们可扩展的类型系统，这将使得这些专门的数据库变得不必要。
图形数据库： OLTP 图形应用程序将主要由关系型数据库提供服务。此外，分析图形应用程序有独特的需求，最好使用专门的数据结构在主内存中完成。关系型数据库将提供基于 SQL 的图形中心 API 或通过扩展。我们预计专门的图形数据库管理系统不会是一个大市场。

1.2 数据库系统架构 / System Architecture

在数据库系统架构章节中，Stonebraker 和 Andy 除了就“关系型或非关系型”的争论表达了看法之外，还分享了他们对数据库架构最新趋势的看法。内容涵盖列式存储、云数据库、数据湖/湖仓一体、NewSQL 数据库、硬件加速器、区块链数据库六大技术领域。

在谈及云数据库时， 两位教授认为：云计算对 DBMS 产生了深远的影响，导致它们被彻底重新设计。过去 20 年里，数据库设计的最大变革发生在云端。由于网络带宽的增长速度相对于磁盘带宽具有巨大飞跃，通过 NAS 在对象存储中存储数据变得越来越有吸引力，推动了计算和存储的分离。计算从本地环境转移到云端，加上无服务器计算（Serverless Computing）技术的兴起，为企业带来了巨大的机会。

云平台促进的另一个趋势上从单一、专用的数据仓库转向由对象存储支持的数据湖。Stonebraker 和 Andy 认为数据湖/湖仓一体是 2010 年初“大数据”运动的继任者。Apache Iceberg、Apache Hudi 和 Databricks Delta Lake 等表格式技术，让“允许任何应用程序往中央存储里写入任意数据”这个原本看起来“糟糕”的想法变得可行。很多传统 OLAP 厂商（例如 Teradata、Vertica）已经扩展了产品功能，以支持从对象存储中读取数据。还有一些独立的系统也在这个领域有所建树，包括 Databricks 等。

两位教授认为：

列存储系统： 列存储的变革彻底改变了 OLAP 数据库管理系统的架构。
云数据库： 云计算颠覆了传统的构建可扩展数据库管理系统方式。除了嵌入式数据库管理系统外，任何不提供云服务的产品都可能会失败。
数据湖/湖仓一体： 使用开源格式构建基于云的对象存储系统，将成为未来十年 OLAP 数据库管理系统的典范。
NewSQL 数据库： 找到了新的想法，但仍然未能产生与列式数据库和云数据库管理系统相同的影响。NewSQL 数据库导致了新的分布式数据库管理系统的出现：可支持更强的 ACID 语义，以解决 NoSQL 较弱的 BASE 特性。
硬件加速器： 除了主流的云供应商外，我们没有看到其他专门的硬件用例，不过初创公司将继续尝试探索。
区块链数据库： 这是一种还在寻找应用场景的效率低下的技术。历史表明，这是系统发展的错误途径。

2 展望未来：技术发展的循环往复

正如论文标题《What Goes Around Comes Around...And Around...》所示，Stonebraker 和 Andy 认为数据库领域正在并将继续经历周期性的变化：

新一代的开发者将会宣称 SQL 和关系型模型（RM）不足以应对新兴的应用领域，随后会提出新的查询语言和数据模型来克服这些问题。探索新的数据库管理系统（DBMS）理念和概念具有巨大的价值（这也是 SQL 获得新特性的来源），数据库研究社区和市场因此而更加强大。然而，两位教授并不期望这些新的数据模型会取代关系型模型。

此外，两位教授也表达了“为了加速下一代 DBMS 的发展，社区应促进开源可重用组件和服务的开发。”

最后，他们提醒开发者要向历史学习，要站在前人的肩膀上，而不是踩在他们的脚趾上。

虽然 Stonebraker 已经 81 岁高龄，我们依旧期待如文末所提到的，能够在 2044 年看到这篇论文的后续。

参考文献：

关于 PieCloudDB

拓数派大模型数据计算系统（PieDataCS）首款计算引擎 PieCloudDB Database 实现了分析型数据数仓上云虚拟化，可按需灵活计算，打破数据孤岛，支撑更大模型所需的数据和计算。PieCloudDB 存储和计算可各自作为两个独立变量，在云里弹性伸缩，实现瞬间扩缩容，解决了基于PC的传统MPP的缺陷。在 eMPP 分布式专利技术、服务器无感知（Serverless）及 TDE （透明数据加密）等多项核心技术加持下，为企业构建高安全，高可靠，高在线的云原生虚拟数仓，助力企业实现数据价值最大化，成为新一代 AI 数据计算基础设施的典范。

微信关注我们

原文链接：https://www.oschina.net/news/302322

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

官宣！玲珑项目升级，如意玲珑（Linyaps）全新启航！

7月13日，在上海站的 deepin Meetup 如意玲珑专场上，我们正式宣布了项目全新的品牌名称——如意玲珑（Linyaps）（以下简称“玲珑”），同时，我们也分享了项目已于2024年5月24日与开放原子开源基金会完成捐赠协议签署的消息，目前如意玲珑已成为基金会的正式孵化期项目。破局！如意玲珑，新型独立包管理工具集在Linux开源软件生态的发展历程中，国内软件生态建设曾面临诸多挑战，其中软件的兼容性和安全性问题尤为突出。不同操作系统下的应用打包和分发，不仅耗费了大量的时间和资源，也常常因为升级引发兼容性问题，给软件开发者和用户带来了不小的困扰。玲珑的出现，无疑为解决这一难题提供了新思路。如意玲珑项目的历史可以追溯到2017年，当时基于Flatpak方案，对deepin的包管理机制进行了重构和改造。2020年，项目借鉴了沙箱/容器的技术方案，完成了玲珑原型的核心开发。2022年，随着deepin V23预览版的发布，玲珑作为其核心特性之一，初步具备了可用性。玲珑本质上是一个独立包管理工具集，凭借其隔离技术可以将应用与系统进行完全解耦，从而彻底解决系统与应用、应用与应用之间因升...

2024-07-16

350

Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力，因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。 Florence 开箱即用支持多种类型的任务，包括: 看图说话、目标检测、OCR 等等。虽然覆盖面很广，但仍有可能你的任务或领域不在此列，也有可能你希望针对自己的任务更好地控制模型输出。此时，你就需要微调了！本文，我们展示了一个在 DocVQA 上微调 Florence 的示例。尽管原文宣称 Florence 2 支持视觉问答 (VQA) 任务，但最终发布的模型并未包含 VQA 功能。因此，我们正好拿这个任务练练手，看看我们能做点什么！预训练细节与模型架构 Florence-2 架构无论执行什么样的计算机视觉任务，Florence-2 都会将其建模为序列到序列的任务。Florence-2 以图像和文本作为输入，并输出文本。模型结构比较简单: 用 DaViT 视觉编码器将图像转换为视觉嵌入，并用 BERT 将文本提示转换为文本和位置嵌入; 然后，生成的嵌入由标准编码器 - 解码器 transfor...

2024-07-15

365

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。