您现在的位置是:首页 > 文章详情

Daft - 分布式查询引擎

日期:2025-09-25点击:45

Daft 是一个使用 Python 或 SQL 进行大规模数据处理的分布式查询引擎,用 Rust 实现。

  • 熟悉的交互式 API:用于快速交互式迭代的 Lazy Python Dataframe,或用于分析查询的 SQL
  • Focus on the what强大的查询优化器,可以重写查询,使其尽可能高效
  • 数据目录集成:与 Apache Iceberg 等数据目录完全集成
  • 丰富的多模式类型系统:支持图像、URL、张量等多模式类型
  • 无缝交换:基于Apache Arrow内存格式构建
  • 专为云打造: 与 S3 云存储集成的创纪录I/O 性能

Daft 的设计遵循以下原则:

  1. 任意数据:除了常见的字符串/数字/日期之外,Daft 的列还可以通过其基于 Arrow 的内存表示高效地存储复杂或嵌套的多模态数据,例如图像、嵌入和 Python 对象。在 Daft 中,多模态数据的提取和基本转换极其简单且高效。
  2. 交互式计算:Daft 旨在通过笔记本或 REPL 为交互式开发人员体验而构建 - 智能缓存/查询优化可加速您的实验和数据探索。
  3. 分布式计算:某些工作负载可能很快超出本地笔记本电脑的计算资源 - Daft 与Ray原生集成,可在具有数千个 CPU/GPU 的大型机器集群上运行数据帧。

基准测试

原文链接:https://www.oschina.net/p/daft
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章