Ornith-1 开源:基于 Qwen 3.5 + RL 训练的编码 Agent,SWE-bench 82.4%
DeepReinforce 团队上周末开源了 Ornith-1,一套专门做编码 Agent 任务的推理模型,MIT 许可,四个规格:9B、31B、35B MoE、397B MoE。全系在 SWE-bench 上拿出了同尺寸最好的成绩。 路线不是从零训练。基座用了 Gemma 4 和 Qwen 3.5,然后做 RL post-training,方向是让模型学会"自改进"——训练中不仅生成代码方案,还生成驱动编码过程的"脚手架"。通过联合优化脚手架和最终产出,模型自己探索出了更好的搜索路径。团队管这个叫 self-improving。...
