Daft - 分布式查询引擎
Daft是一个使用 Python 或 SQL 进行大规模数据处理的分布式查询引擎,用 Rust 实现。 熟悉的交互式 API:用于快速交互式迭代的 Lazy Python Dataframe,或用于分析查询的 SQL Focus on the what:强大的查询优化器,可以重写查询,使其尽可能高效 数据目录集成:与 Apache Iceberg 等数据目录完全集成 丰富的多模式类型系统:支持图像、URL、张量等多模式类型 无缝交换:基于Apache Arrow内存格式构建 专为云打造:与 S3 云存储集成的创纪录I/O 性能 Daft 的设计遵循以下原则: 任意数据:除了常见的字符串/数字/日期之外,Daft 的列还可以通过其基于 Arrow 的内存表示高效地存储复杂或嵌套的多模态数据,例如图像、嵌入和 Python 对象。在 Daft 中,多模态数据的提取和基本转换极其简单且高效。 交互式计算:Daft 旨在通过笔记本或 REPL 为交互式开发人员体验而构建 - 智能缓存/查询优化可加速您的实验和数据探索。 分布式计算:某些工作负载可能很快超出本地笔记本电脑的计算资源 - Daft...

