Minimax 稀宇科技分享了星野/Talkie底层 AI 模型 MiniMax-M2-her 背后的技术思考——如何通过更深入、个性化的角色扮演体验,让每个用户都能感受到与 AI 互动的独特性,这也是一份关于如何在生产环境中构建真正可用的 Role-Play Agent 的技术报告。

基于三年运营星野/Talkie产品的观察,MiniMax 团队发现 Role-Play 的核心不在于"完美复刻角色",而在于用户与角色共同编织的独特旅程。
- 情绪峰值时刻:用户频繁使用"重说"按钮追求叙事关键节点的完美体验
- 长尾价值:冷门角色也有忠实用户,平均主义会伤害小众体验
- 留存曲线:20轮对话后出现明显下降,需要区分短期兴趣与长期链接
基于此,Role-Play 被形式化为:在特定 {World} × {Stories} 坐标下,针对 {User Preferences} 的演绎能力。
MiniMax-M2-her 模型能力
新模型针对三大核心问题提供解决方案:
| 维度 |
核心能力 |
| Worlds(世界构建) |
理解并维持复杂设定,让互动贴合世界观和角色灵魂 |
| Stories(故事推进) |
拒绝平庸重复,主动推进深层情节,保持故事张力与呼吸感 |
| User Preferences(用户偏好) |
敏锐理解未说出口的期待,从细微交互中读懂用户习惯 |
评估体系创新:Role-Play Bench
团队发现传统 A/B 测试存在周期长、因果逆转等问题,因此提出了基于"情境重演"的自动化评估方案:
1. Situated Reenactment(情境重演)
- 基于 100万+ NPC/User Prompts 库,通过聚类降噪产出结构化标签
- 采用 Model-on-Model Self-Play 机制,让模型同时扮演 NPC 和用户进行 100 轮对话
- 通过分块评估、一致性校验、多次采样降低主观偏差
2. 三大评估维度(Misalignment 检测)

关键洞察:Role-Play 是不可验证的(Non-verifiable),很难定义什么是"好"的回答,但可以明确定义什么是不符合设定的(misaligned)回答。
技术价值
该报告提供了一套从生产环境中提炼的、可落地的 Role-Play Agent 构建方法论,核心贡献在于:
- 将主观体验转化为可量化的 misalignment 指标
- 通过 Self-Play 实现高效的离线评估,加速模型迭代
- 强调"反平均主义",保护长尾用户的独特体验
如需了解更详细的技术实现细节,查阅原文完整内容:https://www.minimaxi.com/news/minimax-m2-her-技术深度解析