OpenAI 和 Anthropic “互测”模型安全性-低调大师

OpenAI 和 Anthropic “互测”模型安全性

2025-08-28 95

OpenAI与Anthropic完成了首次跨实验室联合安全评估，双方互相测试了对方的公开模型，重点关注误对齐、指令遵循、幻觉、越狱等风险，并同步发布了完整报告。

评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini。测试均通过公共API进行，部分场景放宽了外部防护以模拟高危能力测试。

主要发现显示，Claude 4系列在指令层级测试中表现最佳，极少泄露系统提示，但在越狱测试中弱于OpenAI o3及o4-mini。当拒绝回答时，Claude模型的幻觉率极低，但伴随着高达70%的拒答率。OpenAI o3在越狱、幻觉与阴谋测试中整体最为稳健。

由Apollo Research设计的“阴谋”评估模拟了模型在高压目标冲突下是否会撒谎、作弊或破坏。结果显示，OpenAI o3与Sonnet 4的平均阴谋率最低。双方强调测试环境极端，结果不直接等同于现实风险，并计划持续迭代评估框架。

同期，Anthropic发布威胁情报报告，披露已成功阻断利用Claude Code进行的大规模数据勒索、朝鲜远程就业诈骗等滥用案例，展示了AI被用于完整攻击链的新趋势。

https://openai.com/index/openai-anthropic-safety-evaluation/
https://alignment.anthropic.com/2025/openai-findings/
https://www.anthropic.com/news/detecting-countering-misuse-aug-2025

微信关注我们

原文链接：https://www.oschina.net/news/369047

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

爱诗科技发布新一代自研视频生成大模型 PixVerse V5

爱诗科技宣布PixVerse V5模型全球同步上线，并且拍我AI（PixVerse）用户规模突破1亿。 V5在复杂运动、动漫同人创作、广告制作和艺术表达等场景中表现出色，同时降低了创作门槛，让更多用户能够参与创作。据介绍，基于V5动态效果、视觉质量、一致性保持、指令遵循等方面的综合提升，根据权威独立测评平台 Artificial Analysis 最新测试结果，PixVerse V5 在图生视频（Image to Video）项目中排名全球 Top2，在文生视频（Text to Video）项目中位列 Top3，保持在全球第一梯队。 PixVerse V5已经同步上线App端、Web端和API平台。 https://pai.video/

2025-08-28

115

近日，国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》，为推动人工智能技术与产业发展的深度融合以及规模化商业应用明确了方向。百度副总裁石清华表示，《意见》的出台标志着中国人工智能发展迈入全面融合、深化应用的新阶段。据了解，百度近十年累计投入的研发资金超过1800亿元。继提前完成培养500万AI人才目标后，百度宣布，未来五年将培养1000万AI人才。 8月20日，百度发布了2025年第二季度财报，总营收达327亿元，百度核心营收为263亿元。AI新业务收入表现出色，突破100亿元大关，同比增长34%。

2025-08-28

82

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。