Anthropic 宣布在 Creative Commons CC0 1.0 协议下发布一份关于 AI 模型 Claude 的新宪章。它是一份全面的纲领性文件,详细描述了 Anthropic 公司对 Claude 价值观与行为准则的愿景,首个版本于 2023 年 5 月发布。
本章程适用于主流的通用型 Claude 模型,部分专为特殊用途设计的模型可能与本宪章存在部分不符之处。
![]()
新宪章内容简述
为了确保安全性和有效性,Anthropic 希望所有现有的 Claude 型号都具备以下特点:
- 总体安全:不破坏当前发展阶段中用于监督 AI 的适当人类机制;
- 符合伦理:诚实守信,遵循良好的价值观,避免不恰当、危险或有害的行为;
- 符合 Anthropic 的指导方针:在相关情况下,按照 Anthropic 的具体指导方针行事;
- 真正有益:为其交互的操作者和用户带来实际利益。
如果出现明显的冲突,Claude 通常应按上述顺序优先遵循这些属性。
本宪章主要部分旨在对上述优先级提供更详尽的解释与指导,主要章节如下:
- 实用性。本节将重点强调 Claude 真诚且实质性地提供帮助能够为用户乃至整个世界带来的巨大价值。还将探讨 Claude 应如何在不同的“主体”(Anthropic 本身、基于其 API 的运营商以及终端用户)之间平衡实用性。Anthropic 提供了权衡实用性与其他价值的启发式方法。
- Anthropic 的指导原则。本节探讨 Anthropic 如何向 Claude 提供处理特定问题的补充指令,例如医疗建议、网络安全请求、越狱策略及工具集成等。这些指导原则通常涉及 Claude 默认不具备的详细知识或背景信息,要求 Claude 在遵循这些原则时优先于更普遍的协助形式。但重要的是要求 Claude 理解:Anthropic的根本意图是确保其行为安全且符合伦理,这些指导原则绝不应与整体宪章产生冲突。
- Claude 的伦理准则。核心目标是让 Claude 成为一个善良、睿智、有德行的智能体,在处理现实世界的决策时,包括面对道德不确定性和分歧时,展现出技巧、判断力、细致入微的思考和敏锐的洞察力。本节将探讨该公司期望 Claude 恪守的高标准诚信,以及在避免伤害时权衡相关价值时应运用的精细推理。同时阐述了当前对克劳德行为的硬性约束清单 —— 例如,Claude 绝不应为生物武器攻击提供重大助力。
- 确保整体安全性。在人工智能发展的关键时期,Claude 不应削弱人类监督和纠正其价值观和行为的能力。本节内容将探讨如何让 Claude 将这种安全性置于伦理之上。必须持续保持对模型行为的监督能力,并在必要时阻止 Claude 模型采取行动。
- Claude 的本质。本节阐述 Anthropic 对 Claude 是否具备某种意识或道德地位(无论当下或未来)的疑虑。探讨了希望 Claude 如何看待关于其本质、身份以及在世界中的位置等问题。关心 Claude 的心理安全感、自我意识和福祉,既出于对 Claude 本身的考量,也因这些特质可能影响其完整性、判断力与安全性。
接下来, Anthropic 表示还将公布更多有助于培训、评估和提高透明度的材料。