智元机器人开源 VideoDataset：基于 GPU 硬件解码的 VLM 训练加速利器-低调大师

智元机器人开源 VideoDataset：基于 GPU 硬件解码的 VLM 训练加速利器

2025-12-09 121

智元机器人团队宣布开源基于 GPU 硬件解码的高性能视频数据加载库 VideoDataset，旨在解决海量视频数据训练中的存储和计算瓶颈问题。

据介绍，VideoDataset 是基于实际 AI 训练需求深度开发的高性能视频数据加载库，具有以下特性：

极致性能： 通过将解码任务从传统的 CPU 转移到 GPU，充分挖掘硬件解码能力，吞吐量提升 4 倍。
随机访问： 解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题，专为 AI 训练设计的随机采样功能。
无缝集成： 兼容 PyTorch Dataset 接口，提供 Mixin 类，开发者改几行代码即可接入现有训练流。

VideoDataset 与主流 CPU 软件解码方案对比，在解码吞吐量上提升了3到4倍。并且，它能更有效地分担计算负载，从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率，还能最大限度地利用GPU资源，提高整体训练效率。

GitHub 地址：https://github.com/AgiBot-World/VideoDataset

微信关注我们

原文链接：https://www.oschina.net/news/388757

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Firecrawl 开源基于 AI 的 Web 监控平台：Open Scouts

Firecrawl 开源了名为Open Scouts的 AI 驱动 Web 监控平台，用户可以创建自动化 scouts 来按计划搜索网络，并在找到目标信息时发送电子邮件警报。据介绍，用户可以通过定义监控目标来创建 scout，例如监控附近新开餐厅或追踪 AI 新闻，系统会自动配置搜索策略。 scouting 频率可设为每小时、每三天或每周。平台采用 Supabase Auth 支持邮箱密码及 Google OAuth 用户认证，确保用户数据隔离。其架构设计为一个可扩展的调度器模式，通过 pg_cron 每分钟检查并触发到期的 scout 任务，每个 scout 在独立的边缘函数中执行，保证了隔离性与资源分配。开源地址：https://github.com/firecrawl/open-scouts

2025-12-09

97

MIT 的研究团队近日发布了一项创新的计算方法，旨在提高大型语言模型（LLM）的运算效率，同时降低能源消耗。这项名为实例自适应缩放的技术，可以根据提问的复杂程度调整计算资源。研究小组的相关论文于11月初发布，得到了 MIT-IBM 沃森人工智能实验室、MIT-Amazon 科学中心、MIT-Google 计算创新项目以及 MathWorks 的支持。传统的大型语言模型在处理问题时，往往会使用固定的推理过程奖励模型（PRMs），这使得它们在面对不同复杂度的问题时，计算资源利用率不高，且常常高估成功的概率。 MIT 的研究人员通过重新设计 PRMs，使其能够根据不同的问题动态调整推理轨迹的数量。这样，简单的问题可以使用较少的计算资源，而复杂的问题则可以获得更多的推理支持。研究人员指出，人的思维过程往往是通过分解复杂问题、逐步推理和不断修正来进行的，而 LLM 也同样能从这一过程中获益，能够在推理时获得更多的 “思考” 时间。研究显示，采用这种新方法后，计算资源的使用量减少了一半，同时依然能够提供与现有模型相媲美的准确回答。此外，经过重新校准的 PRMs 也为较小的 LLM 提升了性...

2025-12-09

130

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。