大语言模型在科学发现领域展现出巨大潜力,但如何直接训练模型完成假设生成——即建模 P(假设*背景)——一直是一个未被充分探索的难题。MiroMind 团队发表在ICML 2026的论文MOOSE-Star指出:直接训练这一条件概率在数学上是难以处理的,因为从庞大知识库中检索和组合灵感的过程存在组合复杂度 O(Nᵏ),会随着候选数量增长而爆炸。

MOOSE-Star的核心贡献在于打破这一壁垒,实现可追踪且可扩展的训练与推理。其解决方案包含三个关键设计:第一,将假设构建分解为顺序的单一灵感步骤,通过概率方程推导出的子任务进行训练;第二,训练一个专门的灵感检索(Inspiration Retrieval, IR)模型;第三,在推理时对 SPECTER2 聚类的树结构进行分层搜索。得益于这三步,最坏情况下的复杂度从指数级 O(Nᵏ) 降低到对数级 O(log N)。
具体而言,MOOSE-Star基于DeepSeek-R1-Distill-Qwen-7B构建,使用来自32B教师模型的拒绝采样数据进行训练。IR模型在15选1的基准测试中达到54.37%的准确率,远超基线的28.42%和随机选择的6.70%。假设构建模型的综合评分达到5.16(满分未详参,基线为4.34)。
为了支撑这项研究,团队还发布了TOMATO-Star数据集,包含107K条分解后的生物医学论文(训练集108,717条、验证集1,600条),构建该数据集耗费约38,400 GPU小时。配套发布的内容还包括SFT训练数据(包含假设构建、边界组合和IR训练等多个子集)以及三个预训练模型(IR模型、假设构建模型和多任务模型),均已在HuggingFace上开源。
MOOSE-Star的意义不仅在于技术突破,更在于它为AI辅助科学研究提供了一条可扩展的路径。实验表明,随着训练数据和推理预算的增加,MOOSE-Star的性能能够持续扩展,而直接暴力采样则会撞上复杂度的墙。对于需要从海量文献中汲取灵感、生成创新假设的科研场景,这无疑是一个值得关注的方向。
参考来源:https://github.com/ZonglinY/MOOSE-Star、https://arxiv.org/abs/2603.03756