苹果开源全新代码生成模型 DiffuCoder-7B-cpGRPO
近日,苹果公司在 HuggingFace 平台悄然上线其最新大模型成果——DiffuCoder-7B-cpGRPO(https://huggingface.co/apple/DiffuCoder-7B-cpGRPO)。 这一版本在原有 DiffuCoder-Instruct 的基础上,进一步引入了 Coupled-GRPO 强化学习算法进行微调,显著提升了在代码生成任务上的表现。根据官方说明,该模型在 EvalPlus 基准测试中性能提升 4.4%,并有效减轻了解码过程中对自回归偏差的依赖。 DiffuCoder-7B-cpGRPO 属于苹果打造的扩散式大语言模型系列,具备 76.2 亿参数,采用 bfloat16 精度训练,支持基于提示词的代码生成。其训练流程基于 DiffuCoder-7B-Instruct 初始化,并在 2.1 万条代码数据上进行一个 epoch 的后训练。 开发者可通过 HuggingFace 上的模型卡及 GitHub 页面(https://github.com/apple/ml-diffucoder)查看详细文档与使用方法。示例代码展示了该模型如何通过扩散过...


