MotherDuck，从 SQLite 走向数据届的 Docker-低调大师

MotherDuck，从 SQLite 走向数据届的 Docker

2022-11-22 532

初次邂逅

之前有一天，我偶然发现了 motherduck.com，朴素得过分的网站。

但背后是一支全明星队伍。

看他们的标语 "Data Infrastructure and Analytics"（数据基础设施和分析）和团队背景，似乎是要挑战 Snowflake / Databricks？但是如果又再来个声称「有性能 / 价格优势」的云原生数仓听起来就有点无聊了。另外，MotherDuck 这个名字很不寻常，为什么要选这个名字？读了他们 4750 万美元 A 轮融资的消息，然后看了下新的官网后，我悟了。

命名

MotherDuck 名字来源 DuckDB，像 SQLite 架构一样的分析型数据库。MotherDuck 把开源的 DuckDB 商业化了，这也是现在 infra 创业公司的标准套路。

宣言

开始，我对 Serverless 感到困惑。虽然 Serverless（无服务器）是一个被滥用的词，但大多数人还是会把它和云计算联系起来。 MotherDuck 把自己包装成为 Serverless，却叫大家别等云了 (Why wait for the cloud?)，但是他们最终可能仍会提供云服务（还有谁不会呢？）。从常识上讲，Serverless 意味着云服务提供商掩盖了服务器的存在。服务器还在，只是用户不需要关心它们了。但是，MotherDuck 的 Serverless 则是另一回事：他们根本就没有服务器，因为底层的 DuckDB 只是一个可嵌入的库，而不是一个独立服务器。所以这里更准确的说法应该是 No Server。

数据民主化

Snowflake 引入了新的想法，把计算和存储分离，这种在架构上的创新赋予了他们巨大的竞争优势。虽然从产品的角度来看，他们仍然是紧密耦合的，因为数据被锁定在 Snowflake 平台上了。 MotherDuck 则不同。假设你有一个单一的数据文件：无论是 Parquet，CSV，SQLite，还是其他格式，该文件储存在你的本地磁盘， S3， GitHub，或任何地方。然后你用 MotherDuck 从计算环境中挂载该文件，你就有了一个强大的工具可以分析该文件了。因为 MotherDuck 的零依赖性（感谢受 SQLite 启发的 DuckDB），它只需要几秒钟就能获得 MotherDuck 二进制文件（甚至在预编译的发行版中包含它之后，这一步也省去了）。

Snowflake 分离了计算和存储，而 MotherDuck 将计算接入存储。有了 MotherDuck，只要你能访问数据文件，你就有了分析能力，在此之上，你还可以建立数据解决方案。

举个例子：OSS Insight，一个实时获取 GitHub 相关事件并提供洞察的网站。虽然它的技术栈已经通过采用 TiDB 而被简化了，但未来 MotherDuck 可以用更简单的技术栈做到类似的。

因为有了 MotherDuck，你所有应用程序的运行时依赖的制品都可以保存在一个文件中。

当然这不是一个新想法。传奇的 Hypercard 最早引入了这个做法，将一个独立的应用程序和数据存储到一个文件中。

还有历史悠久的 FileMaker Pro，整个应用程序和数据都存储在一个单一的 `.fmp12` 文件中。

但是，MotherDuck 可以把这个想法带到一个新的高度，因为他们能够高效处理 TB 级的数据，以及在数据集 / MotherDuck 引擎 / MotherDuck 平台之间定义开放协议，与 GitHub 集成来促进协作等等。

MotherDuck 一上来就要开始与 Snowflake 在各个方面的竞争。数据团队仍然需要 Fivetran 来移动数据；dbt 来转换数据；甚至 meltano 来组装数据平台；但对于分析任务，他们将不得不决定从哪里运行：是 Snowflake Cloud 还是装着 MotherDuck 的任意计算环境？

而当把目光放到更远的地方，一切都还未被开垦。MotherDuck 可以释放出一系列全新的数据解决方案。Only sky is the limit。

MotherDuck 的想法很新奇，时机也很完美。数据分析领域正在静候下一个范式的转变。从业者门有一个更好的 Snowflake 就很开心了，而有远见的人会要求更多。 MotherDuck 明智地选择了一个不同的战场，而不是在性能 / 成本上互卷。

写在最后

之前大家为了获得处理数据的能力，只能把数据交给 Snowflake（或类似厂家）。而有了 MotherDuck 后，大家也都具备了类似的处理能力，同时还可以自己掌控数据：可以把数据保存在任何他们想要存放的地方，只与他们愿意分享的人分享，并在需要的时候随时能使用它。

Docker 作为一个运行时和标准，使得应用程序广泛普及，MotherDuck 也可以成为一个运行时和标准使得数据使用可以广泛普及。

而且这次，MotherDuck 必然比 Docker, Inc 准备得更好，得以在愿景实现时获得最大的份额。

祝 MotherDuck 团队好运。好奇叫 Ducker 这个名字是不是更好一点 :)

微信关注我们

原文链接：https://my.oschina.net/u/6148470/blog/5597354

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Alluxio 2.9新版发布 | 重塑架构，支持大规模多租户环境

🎉🎉🎉 /Alluxio宣布正式发布数据编排平台2.9版本/ Alluxio 2.9 版本的主要新增功能包括：新增跨环境集群同步功能增强Alluxio在Kubernetes上的可管理性提高S3 API 安全性和用户体验 2022年11月17日，全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.9版本，新版本立即可用。2.9版本进一步强化了Alluxio作为计算引擎和存储系统中间层的关键地位。新功能包括：增加跨环境集群同步功能，支持横向扩展的多租户架构；显著改进在Kubernetes上部署的工具集和指南，增强Alluxio的易管理性；以及通过优化S3 API 和 POSIX API 实现安全性和性能提升。本次 Alluxio 2.9 社区版和企业版更新中包含3大重磅功能 Alluxio 2.9版本增加了跨环境同步功能。这个功能让不同的Alluxio集群之间知道各自对于元数据的修改情况，从而自动保持元数据同步。在任何环境中部署Alluxio集群都可以实现租户级隔离，同时可以确保Alluxio集群中的海量元数据处于同步状态。当部署多集群架构时，此功能尤...

2022-11-17

523

ChunJun（原FlinkX）是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具。2018年4月，秉承着开源共享的理念，数栈技术团队在github上开源了FlinkX，承蒙各位开发者的合作共建，FlinkX得到了快速发展。两年后的2022年4月，技术团队决定对FlinkX进行整体升级，并更名为ChunJun，希望继续和各位优秀开发者合作，进一步推动数据集成/同步的技术发展。因该文创作于于FlinkX更名为ChunJun之前，因此文中仍用FlinkX来进行分享，重要的事情说三遍： FlinkX即是ChunJun FlinkX即是ChunJun FlinkX即是ChunJun 进入正文分享⬇️⬇️⬇️ 分享嘉宾：冯江涛中国移动云能力中心编辑整理：陈凯翔亚厦股份出品平台：DataFunTalk 导读：随着本地数据迁移上云、云上数据交换等多源异构数据源数据同步需求日益增多，传统通过编写脚本进行数据同步的方式投入高、效率低、运维管理困难；在公司内部，多款移动云数据库和大数据类产品根据客户需求迫切希望集成数据同步能力，但缺少易用的框架，从0开始研发投入研发成本高。...

2022-11-23

389

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。