通义实验室于宣布推出 LOGOS(Language Of Generative Objects in Science)—— 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源的首个基于统一“科学语法”的多领域科学生成基础模型。
核心洞察在于:蛋白质、小分子、材料虽然表面各异,但底层遵循着相似的组成规则、结构约束和相互作用语义。它们本就是同一种“科学语言”的不同方言。统一语法的价值也正在于此,跨领域知识迁移、多任务协同优化、预训练与下游目标对齐,都因为有了共同的语言基础而成为可能。

LOGOS 构建了涵盖 7 类模态、总计 44.87B tokens 的庞大预训练语料库:
- 生物大分子层 蛋白质(28.9B tokens)+ 抗体(3.0B tokens)
- 化学实体与转化层 小分子(2.1B tokens)+ 化学反应与MOF材料(0.47B tokens)
- 界面互作层 蛋白质口袋(5.8B tokens)+ 蛋白口袋-配体复合物(4.6B tokens)

LOGOS 的三大创新点在于:
- 创新点一:统一"科学语法" + 空间交互的离散化。这是 LOGOS 最具突破性的设计,由两个相辅相成的部分构成。
- 创新点二:预训练和下游任务,形式和目标完全一致。这种 form-objective alignment 有效消除了预训练与下游应用之间的 gap,无需复杂的适配层或大量微调即可激活生成能力。
- 创新点三:跨领域知识正向迁移,实验证实有效。统一语法不仅让科学对象们“语言相通”,更让它们在底层“知识共享”。为了验证 LOGOS 是否真的学会了跨领域的知识,团队进行了深入的探究。