阶跃星辰开源了参数规模为320亿(32B)的深度研究模型:Step-DeepResearch,其在深度研究能力上媲美OpenAI o3-mini和Gemini 2.0 Flash等顶级商业模型,但部署成本降低至不足十分之一(单次调用成本<0.5元人民币)。
![]()
https://github.com/stepfun-ai/StepDeepResearch
模型概述
Step-DeepResearch是一款经济高效的端到端深度研究Agent模型,专为开放式研究场景中的自主信息探索和专业报告生成而设计。
- 原子能力集成:通过将复杂的研究任务分解为可训练的原子能力(包括规划、信息检索、反思和交叉验证以及专业报告生成),并在模型层面实现深度内化,该系统确保在单次推理过程中实现闭环反思和动态校正。
- 渐进式训练流程:我们建立了一条完整的优化路径,从智能体中期训练到监督式微调(SFT)和强化学习(RL),将训练目标从“预测下一个词元”重塑为“决定下一个原子动作”。这种方法有效地增强了模型在复杂环境中的自适应能力和泛化性能。
- 跨模型规模的卓越表现:Step-DeepResearch 仅拥有 320 亿个参数,在 Scale AI Research Rubrics 测试中取得了 61.4% 的成绩,与 OpenAI Deep Research 和 Gemini Deep Research 的成绩持平。在 ADR-Bench 的专家人工评估中,其 Elo 分数显著优于 DeepSeek-v3.2 和 GLM-4.6 等规模更大的模型,并可与顶级闭源模型相媲美。
- 卓越的成本效益:Step-DeepResearch 部署和推理成本极低,同时保持专家级的研究能力,是目前业内最具成本效益的深度研究代理解决方案。
- 访问方式:可通过 StepFun 开放平台 API 获取,首月免费。
![]()
(左)基于研究评价标准的成本效益: Step-DeepResearch 取得了接近最高水平的性能(61.42),同时显著降低了推理成本(RMB),处于高效率前沿。(右)基于 ADR-Bench 的专家评估: Step-DeepResearch 在所有维度上的 Elo 评分均保持领先,足以媲美顶级闭源模型。
系统架构
Step-DeepResearch 采用基于 ReAct 范式的单智能体架构,通过推理、行动和反思的动态循环实现自主深度研究。
基于我们内部专有的工具集,我们提供了一套精简的工具集,并在框架内实现了本地部署,包括batch_web_surfer批量网页搜索和浏览、file文件读取、写入和编辑、todo任务状态管理以及shell交互式命令执行,以支持完整的科研工作流程。
![]()
Step-DeepResearch 系统架构:代理在 ReAct 循环中运行,利用专门的工具集(例如 batch_web_surfer、todo、shell)进行规划、执行和反思,以生成全面的研究报告。
开源地址:https://github.com/stepfun-ai/StepDeepResearch