HuggingFace 开源 FinePDFs 与 FineVision 数据集-低调大师

HuggingFace 开源 FinePDFs 与 FineVision 数据集

2025-09-08 370

Hugging Face 开源了两个大规模数据集 FinePDFs 和 FineVision，前者是目前最大的公开 PDF 语料库，后者则专为视觉-语言模型训练设计，旨在显著提升开源模型的能力。

https://huggingface.co/datasets/HuggingFaceFW/finepdfs
https://huggingface.co/datasets/HuggingFaceM4/FineVision

FinePDFs 是目前最大的公开 PDF 语料库，完全由 PDF 文件构建，包含约 3 万亿 tokens，覆盖 4.75 亿份文档、1733 种语言，数据量 3.65TB。

语料来自 105 个 CommonCrawl 快照（2013 夏—2025 年 2 月），经 datatrove 库去重、过滤与 PII 匿名化，采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍，长于 10万字符的样本显著，可用于提升开源 LLM 的长上下文能力。

数据集已按语言-脚本对划分，978 种语言超 100万 tokens，66 种语言超 10 亿 tokens。

FineVision 面向视觉-语言模型训练，整合 200 余个来源，含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens，支持 GUI 导航、指向、计数等新能力。

官方称在 10 项基准上带来 20% 以上提升，可显著增强开源 VLM 性能。数据已转为 Parquet，总量约 4.48 TB，支持流式加载。

微信关注我们

原文链接：https://www.oschina.net/news/370951

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

宇树科技冲刺 IPO 将影响机器人产业格局

近日，国内机器人领域头部企业宇树科技宣布，预计在2025年10月份至12月份期间向证券交易所提交IPO申请文件。这一消息在科技界和资本市场引发了广泛关注。作为人形机器人商业化落地的标杆企业，宇树科技冲刺IPO，有望成为影响机器人产业格局的关键节点。首先，宇树科技冲刺IPO，有望向市场证明其技术商业化的可行性。公司2024年营收突破10亿元，且连续4年实现盈利，其中，2024年四足机器人贡献了65%的收入，验证了消费级场景的变现能力。若成功上市，通过完整披露研发数据、客户结构及成本模型，宇树科技将进一步证明其技术护城河并非只是“实验室成果”。机器人企业不仅要注重技术研发，还要重视商业化落地。通过拓展应用场景，开发满足市场需求的产品，实现技术的商业价值转化，才能获得稳定的收入，增强资本吸引力。其次，宇树科技冲刺IPO，将成为机器人产业链价值重估的催化剂，持续推动上游精密制造、中游系统集成、下游场景运营的全链条资本化，形成“技术—资本—产业”正循环，从而进一步优化产业链。目前，宇树科技已经实现电机、减速器、控制器等核心部件全栈自研，国产化率超90%。业内预计，宇树科技或将募资重点投...

2025-09-08

195

上海市近日发布了《上海市支持人工智能赋能广告业创新发展的若干措施》，旨在通过一系列具体的扶持政策，推动人工智能技术在广告行业的深度应用和发展。核心扶持措施概览新政策的核心在于“AI+数字广告”生产要素的强化支持，具体措施包括: 大模型私有化部署补贴:对于采用第三方大模型进行私有化部署，并将其应用于广告垂类领域的数字广告企业，上海市将提供最高可达核定合同额50%，最高500万元的补贴。语料研发与应用补贴:鼓励企业购买非关联方的语料进行广告垂类应用和“智能体”等研发。对于此类投入，企业可获得最高核定合同额30%，最高500万元的补贴。算力租用支持:此外，有条件的区政府还将对租用算力的数字广告企业提供支持，按实际投入的30%比例，给予单个主体年度最高2000万元的支持。这一系列政策的出台，不仅体现了上海市抢占“AI+广告”产业制高点的决心，也旨在通过真金白银的投入，降低企业在技术研发和部署上的成本，激发市场的创新活力。通过支持大模型私有化部署、语料研发和算力投入，上海正着力打造一个集技术、数据和算力于一体的完整AI广告生态系统。这些措施预计将吸引更多AI技术公司和传统广告企业在上...

2025-09-08

185

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。