警惕 AI 数据投毒,0.01% 虚假训练文本可致有害内容增加 11.2%
国家安全部发布安全提示文章指出,当前,人工智能已深度融入经济社会发展的方方面面,在深刻改变人类生产生活方式的同时,也成为关乎高质量发展和高水平安全的关键领域。
然而,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。
人工智能的三大核心要素是算法、算力和数据,其中数据是训练AI模型的基础要素,也是AI应用的核心资源。
- 提供AI模型的原料。海量数据为AI模型提供了充足的训练素材,使其得以学习数据的内在规律和模式,实现语义理解、智能决策和内容生成。同时,数据也驱动人工智能不断优化性能和精度,实现模型的迭代升级,以适应新需求。
- 影响AI模型的性能。AI模型对数据的数量、质量及多样性要求极高。充足的数据量是充分训练大规模模型的前提;高准确性、完整性和一致性的数据能有效避免误导模型;覆盖多个领域的多样化数据,则能提升模型应对实际复杂场景的能力。
- 促进AI模型的应用。数据资源的日益丰富,加速了“人工智能+”行动的落地,有力促进了人工智能与经济社会各领域的深度融合。这不仅培育和发展了新质生产力,更推动我国科技跨越式发展、产业优化升级、生产力整体跃升。
高质量的数据能够显著提升模型的准确性和可靠性,但数据一旦受到污染,则可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。
- 投放有害内容。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。
- 造成递归污染。受到数据污染的人工智能生成的虚假内容,可能成为后续模型训练的数据源,形成具有延续性的“污染遗留效应”。当前,互联网AI生成内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中,导致AI训练数据集中的错误信息逐代累积,最终扭曲模型本身的认知能力。
- 引发现实风险。数据污染还可能引发一系列现实风险,尤其在金融市场、公共安全和医疗健康等领域。在金融领域,不法分子利用AI炮制虚假信息,造成数据污染,可能引发股价异常波动,构成新型市场操纵风险;在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪;在医疗健康领域,数据污染则可能致使模型生成错误诊疗建议,不仅危及患者生命安全,也加剧伪科学的传播。
为了应对数据污染带来的威胁,国家安全部建议:
- 加强源头监管,防止污染数据的产生。以《网络安全法》《数据安全法》《个人信息保护法》等法律法规为依据,建立AI数据分类分级保护制度,从根本上防范污染数据的产生,助力有效防范AI数据安全威胁。
- 强化风险评估,保障数据流通。加强对人工智能数据安全风险的整体评估,确保数据在采集、存储、传输、使用、交换和备份等全生命周期环节安全。同步加快构建人工智能安全风险分类管理体系,不断提高数据安全综合保障能力。
- 末端清洗修复,构建治理框架。定期依据法规标准清洗修复受污数据。依据相关法律法规及行业标准,制定数据清洗的具体规则。逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里巴巴 2026 秋季校招计划超 6 成 AI 相关岗位
阿里巴巴2026届秋季校园招聘正式启动,计划发出超过7000个录用通知。此次招聘涵盖阿里巴巴控股集团、淘天、阿里云、阿里国际、通义实验室、智能信息、钉钉、高德等15个业务集团和公司。 与春季招聘相比,秋季校招显著加大了AI人才招聘力度。AI相关岗位占比超过六成。部分AI业务部门的招聘比例更为突出,阿里云、阿里国际、钉钉的AI岗位占比达到80%,高德的相关比例也达到75%。 据悉,阿里国际在2026届校招中,80%的职位均为AI岗位。这些职位包括AI算法工程师、研发工程师以及AI产品经理等关键技术岗位。与此同时,阿里国际启动了面向全球的头部AI科技人才培养计划Bravo102。 阿里巴巴集团董事会主席蔡崇信此前在香港举行的汇丰全球投资峰会上表示,阿里巴巴的员工数量已触底。公司将重新启动并重新招聘,标志着人才战略的重要转向。 集团CEO吴泳铭在财报分析师会上明确表态,未来三年将围绕AI战略核心加大投入。投入重点包括AI和云计算的基础设施建设、AI基础模型平台及AI原生应用,以及现有业务的AI转型升级三个方面。
-
下一篇
谷歌 AI 编程 Agent “Jules” 支持创建 PR
谷歌 AI 编程 Agent “Jules”新增创建拉取请求(PR)的功能,实现了从编码到提交的完整开发闭环。 根据Jules的更新日志,它现在可以将代码变更整合并创建拉取请求(Pull Request)。完成任务后,用户可以要求Jules打包变更、撰写摘要并开启一个待审查的PR,实现了从规划、编码、提交到PR的完整闭环。 Jules官方称,本周是“Jules发布周”,预计将会有更多功能升级。Google AI 开发者关系负责人 Logan Kilpatrick 也在社交媒体上发帖称“big week ahead!”(未来将是重要的一周!),不确定是否仅与 Jules 有关。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- MySQL8.0.19开启GTID主从同步CentOS8
- MySQL数据库在高并发下的优化方案
- SpringBoot2全家桶,快速入门学习开发网站教程
- Red5直播服务器,属于Java语言的直播服务器
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作