OpenAI 等头部 AI 企业的安全监管未达到全球标准-低调大师

OpenAI 等头部 AI 企业的安全监管未达到全球标准

2025-12-04 43

非营利机构生命未来研究所（Future of Life Institute）最新发布了一份《AI 安全指数》报告，由 AI 领域专家对领先的 AI 公司在关键安全领域进行评级。

主要发现包括：

头部企业与其他企业之间仍存在明显差距。头部企业（Anthropic、OpenAI和谷歌 DeepMind）与其余受评企业（Z.ai、xAI、Meta、阿里云、DeepSeek）之间仍存在明显差距。差距最显著的领域体现在风险评估、安全框架和信息共享方面，其根源在于信息披露不足、系统性安全流程证据薄弱，以及稳健评估实践的采用程度参差不齐。
生存安全仍然是该行业的核心结构性弱点。所有受评公司都在竞相研发通用人工智能/超级智能，但都没有提出任何明确的计划来控制或协调这种比人类更智能的技术，因此，最严重的风险实际上没有得到解决。
尽管企业公开做出承诺，但其安全措施仍未能达到新兴的全球标准。虽然许多公司在一定程度上符合这些新兴标准，但实施的深度、具体性和质量仍然参差不齐，导致安全措施尚未达到欧盟人工智能实践准则等框架所设想的严格性、可衡量性或透明度。

注意：证据收集截至 2025 年 11 月 8 日，并未反映最近发生的事件，例如 Google DeepMind 的 Gemini 3 Pro、xAI 的 Grok 4.1、OpenAI 的 GPT-5.1 或 Anthropic 的 Claude Opus 4.5 的发布。

更多详情可查看完整报告：https://futureoflife.org/ai-safety-index-winter-2025/

微信关注我们

原文链接：https://www.oschina.net/news/387624

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 推出 AI “忏悔”框架：训练模型承认不当行为，提高诚实度

OpenAI 正在开发一个名为“忏悔”（Confession）的创新框架，旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。大型语言模型（LLM）通常被训练成提供“符合预期”的回答，这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题，引导模型在主要答案之后做出二次回应，详细说明其得出主要答案的过程。与传统 LLM 评判标准（如帮助性、准确性和服从性）不同，“忏悔”机制对二次回应的评判标准仅基于诚实性。研究人员明确表示，他们的目标是鼓励模型坦诚地说明其行为，即便这些行为包括潜在的问题行为，例如:作弊，故意降低分数，违反指令等。 OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令，这种坦白反而会增加其奖励，而不是减少。” OpenAI 认为，无论出于何种目的，类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助，并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布，供感兴趣者查阅。

2025-12-04

34

谷歌宣布推出 Google Workspace Studio，让企业和团队可以在 Workspace 内直接创建和分享 AI Agents（AI 代理），用于自动化日常工作流程。整个过程不需要写代码，用户只要用自然语言描述需求，Gemini 3 就能自动生成可运行的自动化代理。这些 AI Agent 支持理解、推理与多步骤任务处理，可以协助整理邮件、生成内容、执行情绪分析、根据情况触发智能通知，甚至能完成跨应用的复杂流程自动化。Workspace Studio 也开放与第三方工具集成，例如 Asana、Jira、Salesforce、Mailchimp 等，使整个团队的工作链路都能自动化和智能化。根据介绍，Workspace Studio 让 AI Agent 不只是传统那种死板规则／条件触发的自动化脚本，而是拥有 “理解 / 推理 / 适应” 的能力。它支持：智能任务流程 —— 比如情绪分析 (sentiment analysis)、内容生成 (content generation)、智能优先级 (prioritization)、智能通知 (smart notification...

2025-12-04

38

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。