Uber 开源深度学习分布训练库 Petastorm-低调大师

Uber 开源深度学习分布训练库 Petastorm

2018-09-25 1059

Uber 近日宣布开源 Petastorm，这是由 Uber ATG 开发的数据访问库，可直接基于数 TB 的 Apache Parquet 格式数据集进行单机或分布式训练和深度学习模型评估。Petastorm支持流行的基于Python的机器学习（ML）框架，如 Tensorflow、Pytorch 和 PySpark ，也可以直接用在 Python 代码中。

通常，我们通过连接来自多个数据源的记录来生成数据集。该数据集由 Apache Spark 的 Python 接口 PySpark 生成，稍后将被用在机器学习训练中。Petastorm 提供了一个简单的功能，可以使用 Petastorm 特定的元数据扩展标准的 Parquet ，从而使其与 Petastorm 兼容。

使用 Petastorm ，消耗数据就像在 HDFS 或文件系统路径创建和迭代读取对象一样简单。Petastorm 使用 PyArrow 库来读取 Parquet 文件。过程概述图如下：

Petastorm 结合了各种特性以支持自动驾驶算法的训练，包括行过滤、数据分片、shuffle、对字段子集的访问，以及对时间序列数据（n-gram）的支持。

对于其他上下文，典型数据集的结构包括：

在自动驾驶汽车测试运行期间收集的传感器数据的多个列，包括摄像头、激光定位器和雷达。
手动生成的标签作为行中的字段进行存储。

行数据按照行分组的时间顺序排列，行组大小通常在 30-100 范围内。

Petastorm 的设计目标包括：

由单数据模式定义驱动数据的编码和解码。
提供 ML 框架和纯 Python 代码可用的高数据加载带宽。
将 Apache Spark 作为分布式集群计算框架来生成数据集。
与纯 Python，ML 平台无关的核心 Petastorm 组件的实现。
呈现给 Tensorflow 和 PyTorch 框架的界面原生接口。

更多详情可查看官方博客或项目文档。

微信关注我们

原文链接：https://www.oschina.net/news/100277/uber-opensource-petastorm

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

腾讯开源基于 mmap 的高性能 key-value 组件 MMKV

腾讯微信团队宣布开源MMKV ，这是基于 mmap 内存映射的 key-value 组件，底层序列化/反序列化使用 protobuf 实现，主打高性能和稳定性。MMKV 从 2015 年中至今，在 iOS 微信上使用已有近 3 年，其性能和稳定性经过了时间的验证。近期也已移植到 Android 平台，一并对外开源。以下引用官方文档： MMKV 源起在微信客户端的日常运营中，时不时就会爆发特殊文字引起系统的 crash，参考文章，文章里面设计的技术方案是在关键代码前后进行计数器的加减，通过检查计数器的异常，来发现引起闪退的异常文字。在会话列表、会话界面等有大量 cell 的地方，希望新加的计时器不会影响滑动性能；另外这些计数器还要永久存储下来——因为闪退随时可能发生。这就需要一个性能非常高的通用 key-value 存储组件，我们考察了 SharedPreferences、NSUserDefaults、SQLite 等常见组件，发现都没能满足如此苛刻的性能要求。考虑到这个防 crash 方案最主要的诉求还是实时写入，而 mmap 内存映射文件刚好满足这种需求，我们尝试通过它来实现一套...

2018-09-22

1318

Apache 软件基金会宣布，Apache Pulsar 已经成功地从孵化毕业，成为基金会的一个新的顶级项目。 Pulsar 是一个分布式的消息发布/订阅传递平台，旨在实现可扩展性和灵活性，并确保无数据丢失。项目于2015年由 Yahoo 开源，2017年6月提交给 Apache 孵化器。 Pulsar最初目标是创建一个多租户可扩展的消息传递系统，也正因此，其将服务区和存储层分开的独特架构，已被证明是一个关键的优势。这两层架构使 Pulsar 能够为集群操作提供极为简化的方法，允许运营商轻松扩展集群并替换故障节点，或者提供更高的写入和读取可用性。 Pulsar 利用 Apache BookKeeper 作为存储组件，目前已被 MercadoLibre、Oath、One Click Retail、STICorp、TaxiStartup、Yahoo Japan Corporation 和 Zhaopin.com 等企业使用。

2018-09-26

1019

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。