英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集-低调大师

英伟达发布包含 300 万条高质量样本的视觉语言模型训练数据集

2025-08-14 412

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集，以支持OCR、VQA和图像字幕生成等多种应用。

数据集构成

67.0% 视觉问答（VQA）样本
28.4% OCR 样本
4.6% 图像描述（Captioning）样本

主要用途

文档理解：支持复杂版面、表格、图文混排的 OCR 与内容提取。
企业级 AI 开发：数据已清除版权限制，可直接商用。
模型训练支持：配套 NVIDIA NeMo Curator 工具，便于进一步清洗和定制。

数据来源与构建方式

基于开源数据集重新标注，确保可商用；
使用 NVIDIA 自研模型进行增强，如加入链式思考（Chain-of-Thought）解释、模板化问答生成、答案扩展等；
提供中英双语的 OCR 数据，涵盖字符级、词级、页面级标注。

模型配套

该数据集是 Llama 3.1 Nemotron Nano VL 8B 模型的训练基础，该模型在 OCRBench V2、DocVQA、ChartQA 等基准测试中表现领先，已作为 NVIDIA NIM API 和 Hugging Face 模型库的一部分开放使用。

如需获取数据集，可直接访问 Hugging Face 页面：https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1

微信关注我们

原文链接：https://www.oschina.net/news/366217

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

甲骨文云计算部门启动裁员

外媒报道称，多位知情人士向媒体透露，全球科技巨头甲骨文（Oracle）正在其云计算业务部门推进裁员计划，受影响员工已于本周陆续收到通知。此次裁员被视为甲骨文在持续加码人工智能（AI）基础设施投资背景下，优化运营成本、提升组织效率的重要举措。据三位不愿具名的知情人士称，甲骨文本轮裁员覆盖云计算部门多个团队，但具体裁撤比例及地区分布尚未明确。其中两位人士强调，部分员工的离职与年度绩效评估结果直接挂钩，甲骨文或借此机会淘汰低效岗位，同时保留核心战略领域人才。 “这不是全面收缩，而是针对性优化。”一位接近甲骨文内部的消息人士表示，“公司仍在为AI相关项目招聘高端工程师，但希望团队更加精干。” 甲骨文近年来在云计算与AI领域动作频频。2024年，公司宣布未来三年将投入超200亿美元扩建数据中心，以支持其AI训练与推理服务，并与英伟达等企业深化合作，构建高性能计算网络。然而，激进扩张也带来成本压力——最新财报显示，甲骨文2025财年第二季度资本支出同比增长45%，而运营利润率较去年同期下滑2个百分点。尽管部分团队面临调整，但甲骨文云计算部门仍在开放多个职位。根据LinkedIn招聘信息，该公司...

2025-08-14

264

香港大学 XLANG Lab 联合月之暗面、斯坦福大学等机构，正式开源了一个名为 OpenCUA 的完整框架，旨在帮助开发者低门槛地构建和扩展 CUA（Computer-Use Agent，计算机使用智能体）。该框架包括：无缝捕获人类计算机使用演示的注释基础设施第一个跨越 3 个操作系统以及超 200 个应用程序和网站的大规模计算机使用任务数据集 AgentNet 一个可扩展的、能将演示转换为具有反思性长思维链推理 “状态 - 动作” 对的工作流程。香港大学计算机科学系助理教授 Tao Yu（余涛）为项目负责人，月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与，月之暗面创始人、CEO 杨植麟在作者名单之列。据介绍，OpenCUA 通过开源完整的数据、工具和模型，让 “人人都能打造自己的专属电脑智能体”，并已在关键基准上超越 GPT-4o，成为当前最强的开源 CUA 方案。相关链接论文地址：https://arxiv.org/pdf/2508.09123 OpenCUA主页（工具、模型、数据集）：https://opencua.xlang.ai Huggin...

2025-08-14

303

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。