Ornith-1 开源：基于 Qwen 3.5 + RL 训练的编码 Agent，SWE-bench 82.4%-低调大师

Ornith-1 开源：基于 Qwen 3.5 + RL 训练的编码 Agent，SWE-bench 82.4%

2026-06-30 2

DeepReinforce 团队上周末开源了 Ornith-1，一套专门做编码 Agent 任务的推理模型，MIT 许可，四个规格：9B、31B、35B MoE、397B MoE。全系在 SWE-bench 上拿出了同尺寸最好的成绩。

路线不是从零训练。基座用了 Gemma 4 和 Qwen 3.5，然后做 RL post-training，方向是让模型学会"自改进"——训练中不仅生成代码方案，还生成驱动编码过程的"脚手架"。通过联合优化脚手架和最终产出，模型自己探索出了更好的搜索路径。团队管这个叫 self-improving。

数字很直观。397B 版 SWE-bench Verified 82.4%。同一个 Qwen 3.5 397B 基座原版是 76.4%，Claude Opus 4.8 是 87.6%。Terminal-Bench 2.1 上跑 Terminus-2 拿了 77.5%，Qwen 3.5 397B 只有 53.5%——提了近 24 个百分点。SWE-bench Pro 端到端修复 62.2%，多语言版 78.9%。

小模型上的提升比大模型更值得看。9B 版 Terminal-Bench 43.1%，两倍大的 Gemma 4 31B 是 42.1%，而 Qwen 3.5 同尺寸只有 21.3%。35B MoE 版 64.2%，Qwen 3.5 35B 原版是 41.4%。提升幅度随模型变小而增大——这套 RL 方法压缩的似乎是推理能力而非知识储备。

工程上考虑得很细。256K 上下文窗口，输出带 <think> 推理块（chain-of-thought 放在 reasoning_content 字段里），<tool_call> 块解析出来是标准 OpenAI tool_calls 格式。兼容 vLLM 0.19.1+、SGLang 0.5.9+、Transformers 5.8.1+，提供了 bf16、FP8、GGUF 三种精度。GGUF 版可以在 llama.cpp 和 Ollama 上本地跑。推荐采样参数 temperature=0.6、top_p=0.95、top_k=20。

这套模型的意义不在绝对分数——82.4% 离 Claude Opus 4.8 的 87.6% 还有距离。意义在于路线：一个团队拿公开基座模型，纯靠 RL post-training 榨出近 6 个点的 SWE-bench 提升，而且模型越小提得越猛。代码、权重、训练方法全开源。

参考来源：

GitHub: deepreinforce-ai/Ornith-1

微信关注我们

原文链接：https://www.oschina.net/news/470235/ornith-1-0

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Cursor 推出 iOS 端 App，把 AI 编程塞进了手机

合上笔记本，Agent 继续在云端跑。半小时后，手机锁屏弹出一条通知：PR 的 CI 过了，diff 可以审。你拿起手机看完改动的三个文件，点了 merge。这是 Cursor iOS 应用想要实现的日常。6 月 29 日，Cursor 把 iOS 移动应用推到了公开测试，所有付费计划用户可以直接从 App Store 下载。先讲最核心的东西：Cloud Agent。它在 Cursor 的隔离虚拟机里运行，拥有完整的开发环境——能编译、能跑测试、能生成可交互的 Demo。你在手机上用语音描述需求，Agent 在云端干活。手机只是决策终端，算力全在服务端。更重要的是，...

2026-06-30

1

由于全球云计算能力持续短缺，谷歌正式限制了Meta对其顶级AI模型Gemini的访问权限。作为Meta自动化安全工作流程的核心，Gemini此前被广泛应用于诈骗检测和有害内容过滤等大规模审核任务，其效率曾一度优于Meta自身的开源Llama系统。然而，随着AI推理工作负载的激增，谷歌即使在第一季度创下200亿美元的云业务营收，其物理基础设施建设速度仍难以追赶算力需求的爆炸式增长。此次谷歌对Meta实施的算力配给，导致Meta多个内部人工智能项目遭到延误。面对这一突发的基础设施瓶颈，Meta 管理层已紧急要求员工提升 AI Tokens 的使用效率。同时，这一受制于竞争对手的局面也加速了Me...

2026-06-30

2

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。