HuggingFace 开源 FinePDFs 与 FineVision 数据集
Hugging Face 开源了两个大规模数据集 FinePDFs 和 FineVision,前者是目前最大的公开 PDF 语料库,后者则专为视觉-语言模型训练设计,旨在显著提升开源模型的能力。
https://huggingface.co/datasets/HuggingFaceFW/finepdfs
https://huggingface.co/datasets/HuggingFaceM4/FineVision
FinePDFs 是目前最大的公开 PDF 语料库,完全由 PDF 文件构建,包含约 3 万亿 tokens,覆盖 4.75 亿份文档、1733 种语言,数据量 3.65TB。
语料来自 105 个 CommonCrawl 快照(2013 夏—2025 年 2 月),经 datatrove 库去重、过滤与 PII 匿名化,采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍,长于 10万 字符的样本显著,可用于提升开源 LLM 的长上下文能力。
数据集已按语言-脚本对划分,978 种语言超 100万 tokens,66 种语言超 10 亿 tokens。
FineVision 面向视觉-语言模型训练,整合 200 余个来源,含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens,支持 GUI 导航、指向、计数等新能力。
官方称在 10 项基准上带来 20% 以上提升,可显著增强开源 VLM 性能。数据已转为 Parquet,总量约 4.48 TB,支持流式加载。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
宇树科技冲刺 IPO 将影响机器人产业格局
近日,国内机器人领域头部企业宇树科技宣布,预计在2025年10月份至12月份期间向证券交易所提交IPO申请文件。这一消息在科技界和资本市场引发了广泛关注。 作为人形机器人商业化落地的标杆企业,宇树科技冲刺IPO,有望成为影响机器人产业格局的关键节点。 首先,宇树科技冲刺IPO,有望向市场证明其技术商业化的可行性。公司2024年营收突破10亿元,且连续4年实现盈利,其中,2024年四足机器人贡献了65%的收入,验证了消费级场景的变现能力。若成功上市,通过完整披露研发数据、客户结构及成本模型,宇树科技将进一步证明其技术护城河并非只是“实验室成果”。 机器人企业不仅要注重技术研发,还要重视商业化落地。通过拓展应用场景,开发满足市场需求的产品,实现技术的商业价值转化,才能获得稳定的收入,增强资本吸引力。 其次,宇树科技冲刺IPO,将成为机器人产业链价值重估的催化剂,持续推动上游精密制造、中游系统集成、下游场景运营的全链条资本化,形成“技术—资本—产业”正循环,从而进一步优化产业链。 目前,宇树科技已经实现电机、减速器、控制器等核心部件全栈自研,国产化率超90%。业内预计,宇树科技或将募资重点投...
-
下一篇
上海发布 AI 广告扶持政策:最高 500 万补贴大模型
上海市近日发布了《上海市支持人工智能赋能广告业创新发展的若干措施》,旨在通过一系列具体的扶持政策,推动人工智能技术在广告行业的深度应用和发展。 核心扶持措施概览 新政策的核心在于“AI+数字广告”生产要素的强化支持,具体措施包括: 大模型私有化部署补贴:对于采用第三方大模型进行私有化部署,并将其应用于广告垂类领域的数字广告企业,上海市将提供最高可达核定合同额50%,最高500万元的补贴。 语料研发与应用补贴:鼓励企业购买非关联方的语料进行广告垂类应用和“智能体”等研发。对于此类投入,企业可获得最高核定合同额30%,最高500万元的补贴。 算力租用支持:此外,有条件的区政府还将对租用算力的数字广告企业提供支持,按实际投入的30%比例,给予单个主体年度最高2000万元的支持。 这一系列政策的出台,不仅体现了上海市抢占“AI+广告”产业制高点的决心,也旨在通过真金白银的投入,降低企业在技术研发和部署上的成本,激发市场的创新活力。通过支持大模型私有化部署、语料研发和算力投入,上海正着力打造一个集技术、数据和算力于一体的完整AI广告生态系统。 这些措施预计将吸引更多AI技术公司和传统广告企业在上...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- MySQL数据库在高并发下的优化方案
- SpringBoot2配置默认Tomcat设置,开启更多高级功能