中文互联网基础语料 3.0 发布,数据量高达120GB
中文互联网基础语料3.0正式发布。这一新版本的数据量达到了惊人的120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。
中文互联网基础语料3.0的发布,是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心等单位协同合作的成果。
此次语料的开发与构建,得益于企业、高校和科研单位之间的紧密合作,充分利用了网安协会人工智能安全治理专委会建立的语料共建共享机制。与前两版相比,3.0版本在信源范围上进行了扩大,进一步提升了数据的质量。
在数据处理方面,语料3.0经过了严格的信源筛选、内容过滤和数据去重等一系列细致的加工处理措施。这些措施确保了发布的数据更加可信,有助于过滤掉违法和不良信息,为人工智能的研究和应用提供一个更为健康的环境。
用户可以通过登录中国网络空间安全协会网站,点击 “中文互联网语料资源平台” 链接,注册并认证后下载相关语料。该负责人表示,中文互联网基础语料3.0的推出标志着各界对高质量中文语料的共同努力与成果,未来还将继续加强中文互联网基础语料的建设,以支撑人工智能技术的创新与产业发展。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
工信部通报:29 款 APP 存在侵害用户权益行为
工信部发布“关于侵害用户权益行为的APP通报(2025年第5批,总第50批)”指出,近期,经组织第三方检测机构进行抽查,共发现29款APP存在侵害用户权益行为,现予以通报。上述APP应按有关规定进行整改,整改落实不到位的,将依法依规组织开展相关处置工作。 附件:工业和信息化部通报存在问题的APP名单
-
下一篇
百度 PaddleOCR 累计下载量突破 900 万,被超 5.9k 开源项目使用
近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5 的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。 据了解,2025年5月,飞桨团队推出PaddleOCR 3.0版本,文字识别方案PP-OCRv5与通用文档解析方案PP-StructureV3,以及原生支持文心大模型4.5的智能文档理解方案PP-ChatOCRv4共同构成其三大特色能力。自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker容器配置,解决镜像无法拉取问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题


微信收款码
支付宝收款码