HuggingFace 开源 FinePDFs 与 FineVision 数据集
Hugging Face 开源了两个大规模数据集 FinePDFs 和 FineVision,前者是目前最大的公开 PDF 语料库,后者则专为视觉-语言模型训练设计,旨在显著提升开源模型的能力。 https://huggingface.co/datasets/HuggingFaceFW/finepdfs https://huggingface.co/datasets/HuggingFaceM4/FineVision FinePDFs 是目前最大的公开 PDF 语料库,完全由 PDF 文件构建,包含约 3 万亿 tokens,覆盖 4.75 亿份文档、1733 种语言,数据量 3.65TB。 语料来自 105 个 CommonCrawl 快照(2013 夏—2025 年 2 月),经 datatrove 库去重、过滤与 PII 匿名化,采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍,长于 10万 字符的样本显著,可用于提升开源 LLM 的长上下文能力。 数据集已按语言-脚本对划分,978 种语言超 100万 tokens,66 种语言超 10 亿 token...