国内多数模型训练使用中文数据已超 60%
国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示,当前我国网民数量达到11.23亿人,互联网普及率达到79.7%。 刘烈宏表示,我国数据产业处于快速发展阶段,数据产业链加速形成。据国家数据发展研究院研究,2024年,全国数据企业数量超过40万家,数据产业规模达5.86万亿元,较“十三五”末增长117%,预计未来几年仍将保持较高的增长水平。数据“采存算管用”全链条焕新迭代,催生出“数据即服务”“知识即服务”“模型即服务”等新模式、新业态。2024年,上市数据企业平均研发投入较“十三五”末增长79%,年均增速15.7%,产业链创新活力持续增强。 作为人工智能发展的三大核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,特别是高质量数据集的建设至关重要。例如在医疗健康领域,通过标注的医学影像高质量数据集,模型的疾病诊断准确率可以提升15%以上。2024年初,我国日均Token(即通常所说的词元,处理文本的最小数据单元)的消耗量为1千亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映出我国...
