微软开源 DeepSeek-R1 魔改版「MAI-DS-R1」:响应 99% 敏感提示、风险降 50%
微软今天开源了一款“魔改版”的 DeepSeek-R1 模型「MAI-DS-R1」,其在保留原有推理性能的基础上进行了大幅度增强,尤其是在响应和屏蔽词方面有了显著改进: MAI-DS-R1 可以响应 99.3% 的敏感话题提示,比原版 R1 提升了2倍,这对于政治学术研究、社会问题、伦理道德研究等帮助巨大;但在安全风险大幅度降低,比原版 R1 降低了 50%。 据介绍,MAI-DS-R1 是后训练优化的 DeepSeek-R1 模型,微软在训练 MAI-DS-R1 的过程中,从大约 350000 个被屏蔽的主题示例中,收集和筛选查询关键词,将这些关键词转化为多个问题,并翻译成不同语言;还通过 DeepSeek R1 和内部模型为这些问题生成答案和思维链。 此外,训练数据中还纳入了来自Tulu3 SFT数据集的 110K 个安全和违规示例,这些示例涵盖了 CoCoNot、WildJailbreak 和 WildGuardMix 等内容。 https://huggingface.co/microsoft/MAI-DS-R1 随后,微软对 MAI-DS-R1 进行了综合评估。在敏感话题响应方...
