OpenAI 和 Anthropic “互测”模型安全性
OpenAI与Anthropic完成了首次跨实验室联合安全评估,双方互相测试了对方的公开模型,重点关注误对齐、指令遵循、幻觉、越狱等风险,并同步发布了完整报告。
评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini。测试均通过公共API进行,部分场景放宽了外部防护以模拟高危能力测试。
主要发现显示,Claude 4系列在指令层级测试中表现最佳,极少泄露系统提示,但在越狱测试中弱于OpenAI o3及o4-mini。当拒绝回答时,Claude模型的幻觉率极低,但伴随着高达70%的拒答率。OpenAI o3在越狱、幻觉与阴谋测试中整体最为稳健。
由Apollo Research设计的“阴谋”评估模拟了模型在高压目标冲突下是否会撒谎、作弊或破坏。结果显示,OpenAI o3与Sonnet 4的平均阴谋率最低。双方强调测试环境极端,结果不直接等同于现实风险,并计划持续迭代评估框架。
同期,Anthropic发布威胁情报报告,披露已成功阻断利用Claude Code进行的大规模数据勒索、朝鲜远程就业诈骗等滥用案例,展示了AI被用于完整攻击链的新趋势。
https://openai.com/index/openai-anthropic-safety-evaluation/
https://alignment.anthropic.com/2025/openai-findings/
https://www.anthropic.com/news/detecting-countering-misuse-aug-2025

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
爱诗科技发布新一代自研视频生成大模型 PixVerse V5
爱诗科技宣布PixVerse V5模型全球同步上线,并且拍我AI(PixVerse)用户规模突破1亿。 V5在复杂运动、动漫同人创作、广告制作和艺术表达等场景中表现出色,同时降低了创作门槛,让更多用户能够参与创作。 据介绍,基于V5动态效果、视觉质量、一致性保持、指令遵循等方面的综合提升,根据权威独立测评平台 Artificial Analysis 最新测试结果,PixVerse V5 在图生视频(Image to Video)项目中排名全球 Top2,在文生视频(Text to Video)项目中位列 Top3,保持在全球第一梯队。 PixVerse V5已经同步上线App端、Web端和API平台。 https://pai.video/
-
下一篇
百度宣布未来五年再培养 1000 万 AI 人才
近日,国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》,为推动人工智能技术与产业发展的深度融合以及规模化商业应用明确了方向。 百度副总裁石清华表示,《意见》的出台标志着中国人工智能发展迈入全面融合、深化应用的新阶段。据了解,百度近十年累计投入的研发资金超过1800亿元。继提前完成培养500万AI人才目标后,百度宣布,未来五年将培养1000万AI人才。 8月20日,百度发布了2025年第二季度财报,总营收达327亿元,百度核心营收为263亿元。AI新业务收入表现出色,突破100亿元大关,同比增长34%。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Hadoop3单机部署,实现最简伪集群
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL数据库在高并发下的优化方案
- SpringBoot2整合Redis,开启缓存,提高访问速度