智元机器人开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器
智元机器人团队宣布开源基于 GPU 硬件解码的高性能视频数据加载库 VideoDataset,旨在解决海量视频数据训练中的存储和计算瓶颈问题。
据介绍,VideoDataset 是基于实际 AI 训练需求深度开发的高性能视频数据加载库,具有以下特性:
- 极致性能: 通过将解码任务从传统的 CPU 转移到 GPU,充分挖掘硬件解码能力,吞吐量提升 4 倍。
- 随机访问: 解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题,专为 AI 训练设计的随机采样功能。
- 无缝集成: 兼容 PyTorch Dataset 接口,提供 Mixin 类,开发者改几行代码即可接入现有训练流。
VideoDataset 与主流 CPU 软件解码方案对比,在解码吞吐量上提升了3到4倍。并且,它能更有效地分担计算负载,从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率,还能最大限度地利用GPU资源,提高整体训练效率。
GitHub 地址:https://github.com/AgiBot-World/VideoDataset



