国内多数模型训练使用中文数据已超 60%
国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示,当前我国网民数量达到11.23亿人,互联网普及率达到79.7%。
刘烈宏表示,我国数据产业处于快速发展阶段,数据产业链加速形成。据国家数据发展研究院研究,2024年,全国数据企业数量超过40万家,数据产业规模达5.86万亿元,较“十三五”末增长117%,预计未来几年仍将保持较高的增长水平。数据“采存算管用”全链条焕新迭代,催生出“数据即服务”“知识即服务”“模型即服务”等新模式、新业态。2024年,上市数据企业平均研发投入较“十三五”末增长79%,年均增速15.7%,产业链创新活力持续增强。
作为人工智能发展的三大核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,特别是高质量数据集的建设至关重要。例如在医疗健康领域,通过标注的医学影像高质量数据集,模型的疾病诊断准确率可以提升15%以上。2024年初,我国日均Token(即通常所说的词元,处理文本的最小数据单元)的消耗量为1千亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映出我国人工智能应用规模的快速增长。
截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片,400PB的总量相当于中国国家图书馆数字资源总量的140倍左右)。人工智能模型的训练也推动了数据交易需求的攀升,截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。目前已布局成都、沈阳、合肥等7个数据标注基地,助力高质量数据集的建设。
中文数据在国内大模型的训练性能提升方面发挥着重要作用。经过一段时间的努力,国内多数模型训练使用的中文数据占比已经超过了60%,有的模型已达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能的快速提升。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
ECA - 与编辑器无关的 AI 结对编程功能
Editor Code Assistant(ECA) - 人工智能结对编程功能,不受编辑器限制。旨在轻松连接 LLM 和编辑器,并通过定义明确的协议为 AI 结对编程提供最佳的用户体验。服务器采用 Clojure 编写,并深受LSP 协议的启发,LSP 协议是此类集成的一个成功案例。 该协议使其他编辑器更容易集成,并且在中间有一个服务器有助于快速添加更多功能,以下是一些示例: 工具调用管理 多LLM互动 功能使用情况遥测 为任何编辑器配置的单一方法 相同的用户体验,易于人员和团队加入。 与编辑器无关:适合任何编辑器集成的协议。 单一配置:通过全局或本地配置配置 eca,使其在任何编辑器中都能正常工作。 聊天界面:提出问题、审查代码、共同编写代码。 Agentic:让 LLM 使用其原生工具和你可以配置的 MCP 作为代理工作。 背景:支持:向 LLM 提供有关你的代码的更多详细信息,包括 MCP 资源和提示。 多模型:OpenAI、Anthropic、Ollama 本地模型和自定义用户配置模型。 使用eca-emacs 的演示 使用eca-vscode 的演示
- 下一篇
甲骨文云计算部门启动裁员
外媒报道称,多位知情人士向媒体透露,全球科技巨头甲骨文(Oracle)正在其云计算业务部门推进裁员计划,受影响员工已于本周陆续收到通知。此次裁员被视为甲骨文在持续加码人工智能(AI)基础设施投资背景下,优化运营成本、提升组织效率的重要举措。 据三位不愿具名的知情人士称,甲骨文本轮裁员覆盖云计算部门多个团队,但具体裁撤比例及地区分布尚未明确。其中两位人士强调,部分员工的离职与年度绩效评估结果直接挂钩,甲骨文或借此机会淘汰低效岗位,同时保留核心战略领域人才。 “这不是全面收缩,而是针对性优化。”一位接近甲骨文内部的消息人士表示,“公司仍在为AI相关项目招聘高端工程师,但希望团队更加精干。” 甲骨文近年来在云计算与AI领域动作频频。2024年,公司宣布未来三年将投入超200亿美元扩建数据中心,以支持其AI训练与推理服务,并与英伟达等企业深化合作,构建高性能计算网络。然而,激进扩张也带来成本压力——最新财报显示,甲骨文2025财年第二季度资本支出同比增长45%,而运营利润率较去年同期下滑2个百分点。 尽管部分团队面临调整,但甲骨文云计算部门仍在开放多个职位。根据LinkedIn招聘信息,该公司...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS关闭SELinux安全模块
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2更换Tomcat为Jetty,小型站点的福音