Daft - 分布式查询引擎
Daft 是一个使用 Python 或 SQL 进行大规模数据处理的分布式查询引擎,用 Rust 实现。
- 熟悉的交互式 API:用于快速交互式迭代的 Lazy Python Dataframe,或用于分析查询的 SQL
- Focus on the what:强大的查询优化器,可以重写查询,使其尽可能高效
- 数据目录集成:与 Apache Iceberg 等数据目录完全集成
- 丰富的多模式类型系统:支持图像、URL、张量等多模式类型
- 无缝交换:基于Apache Arrow内存格式构建
- 专为云打造: 与 S3 云存储集成的创纪录I/O 性能
Daft 的设计遵循以下原则:
- 任意数据:除了常见的字符串/数字/日期之外,Daft 的列还可以通过其基于 Arrow 的内存表示高效地存储复杂或嵌套的多模态数据,例如图像、嵌入和 Python 对象。在 Daft 中,多模态数据的提取和基本转换极其简单且高效。
- 交互式计算:Daft 旨在通过笔记本或 REPL 为交互式开发人员体验而构建 - 智能缓存/查询优化可加速您的实验和数据探索。
- 分布式计算:某些工作负载可能很快超出本地笔记本电脑的计算资源 - Daft 与Ray原生集成,可在具有数千个 CPU/GPU 的大型机器集群上运行数据帧。

