Apache Arrow 4.0.1 发布,内存数据交换格式
Apache Arrow 4.0.1 现已发布。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。
主要更新内容
- [Python][C++] 在 v4.0.0 中转换 int64 的切片 ListArray 时出现段错误
- [R][Packaging] 修复 r/configure 中的 pkg-config 检查
- [R] open_dataset 在使用 select 时忽略提供的模式
- [R][Packaging] 数据集,在 autobrew 和 CRAN Mac 版本中关闭 Parquet
- [Python] pyarrow.orc.write_table 签名与 pyarrow.parquet.write_table 的签名相反
- [Python] 在 Flight 服务器中读取 CSV 时出现段错误
- [R] LIBARROW_MINIMAL、LIBARROW_DOWNLOAD、NOT_CRAN 环境变量不应该区分大小写
- [C++] 使用 nvcc 11.2 编译 arrow header 时出现段错误
- [C++] extract_regex 在空值或不匹配后会出现异常行为
- [Go][Flight] 客户端身份验证处理程序覆盖传出的元数据
- [Python] 超出范围的负数片产生无效的数组
- [C++][Compute] replace_substring_regex() 创建无效数组 => 崩溃
- [Archery][Integration] 修复 write_js_test_json 中十进制大小写的生成
- [R] 传递新的 UCRT CRAN windows 构建
- [R] 小规模的文档更新
- [R][CI] 使用 valgrind 每晚运行 R
- [JS] 简化 NodeJS 中的 UTF8 处理
- [Python] pyarrow sdist 不需要 git
- [Python] test_write_to_dataset_filesystem 缺少数据集标记
详情请查看更新公告。