商汤科技宣布推出并开源日日新 SenseNova U1系列原生理解生成统一模型。基于商汤于今年三月份自主研发的 NEO-unify 架构,在单一模型架构上统一了多模态理解、推理与生成。
根据介绍,NEO-unify架构彻底摒弃了主流的拼接式,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并且深入融入每一层计算中,从而实现从模态集成向原生统一的范式跨越。
SenseNova U1系列模型能够将语言与视觉信息作为统一的复合体直接建模,实现语言和视觉信息的高效协同,让理解与生成能力同步增强,在保留语义丰富度的同时,维持像素级的视觉保真度。
在逻辑推理与空间智能等方向上,它能够深度理解物理世界的复杂布局与精细关系;在未来,它还能为机器人提供具身大脑,实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程,为推动技术与产业发展提供重要基础与关键引擎。
本次开源发布的是 SenseNova U1 的轻量版系列 SenseNova U1 Lite。它包含两个不同规格的模型:
- SenseNova-U1-8B-MoT:基于稠密骨干网络
- SenseNova-U1-A3B-MoT:基于混合专家(MoE) 骨干网络
商汤方面表示,SenseNova U1 Lite 在多项基准测试中均达到同量级开源模型SOTA水平。甚至仅凭8B-MoT的较小规格,就能达到甚至超越部分大型商业闭源模型。



在通用的图像生成测试中,SenseNova U1 Lite不但在图像生成质量上比肩 Qwen-Image 2.0 Pro或 Seedream 4.5 等大型闭源模型,达到商业级水准,还在推理响应速度上有显著优势。即使在极具挑战性、开源模型一直做不好的复杂信息图生成任务中,SenseNova U1 Lite 也表现出商业级的水准,对复杂信息图的排版和文字有很强的控制力。


SenseNova U1 还实现了连续性的图文创作输出。只需要单次单模型调用,就能输出更高质量的作品,相比传统范式,实现了效率的大幅提升。
SenseNova U1 所具备的原生图文理解生成能力,能天然将图像和文本底层融合信号完整的保留上下文中,区别于过去只能利用多模型串联勉强实现,它的图像间风格具备明显的高一致性,能在统一表征空间进行高效连贯思考。