您现在的位置是:首页 > 文章详情

HuggingFace 开源 FinePDFs 与 FineVision 数据集

日期:2025-09-08点击:14

Hugging Face 开源了两个大规模数据集 FinePDFs 和 FineVision,前者是目前最大的公开 PDF 语料库,后者则专为视觉-语言模型训练设计,旨在显著提升开源模型的能力。

https://huggingface.co/datasets/HuggingFaceFW/finepdfs
https://huggingface.co/datasets/HuggingFaceM4/FineVision

FinePDFs 是目前最大的公开 PDF 语料库,完全由 PDF 文件构建,包含约 3 万亿 tokens,覆盖 4.75 亿份文档、1733 种语言,数据量 3.65TB。

语料来自 105 个 CommonCrawl 快照(2013 夏—2025 年 2 月),经 datatrove 库去重、过滤与 PII 匿名化,采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍,长于 10万 字符的样本显著,可用于提升开源 LLM 的长上下文能力。

数据集已按语言-脚本对划分,978 种语言超 100万 tokens,66 种语言超 10 亿 tokens。

FineVision 面向视觉-语言模型训练,整合 200 余个来源,含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens,支持 GUI 导航、指向、计数等新能力。

官方称在 10 项基准上带来 20% 以上提升,可显著增强开源 VLM 性能。数据已转为 Parquet,总量约 4.48 TB,支持流式加载。

原文链接:https://www.oschina.net/news/370951
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章