NEO-unify:原生架构打造端到端多模态理解与生成统一模型
商汤科技联合南洋理工大学,提出一种全新的架构范式:NEO-unify(preview) 当前多模态智能架构困境 长期以来,多模态研究已形成一种默认范式:视觉编码器(Vision Encoder, VE) 负责感知与理解,而变分自编码器(Variational Autoencoder, VAE) 则用于内容生成。近期的一些工作尝试构建共享编码器,但这种折衷往往引入新的结构性设计权衡。 由此回到第一性原理:构建一体化模型直接处理原生输入,即像素本身与文字本身。商汤科技联合南洋理工大学,提出一种全新的架构范式:NEO-unify(preview),一个原生、统一、端到端的多模态模型架构。它不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。最关键的是:不需要 VE,也不需要 VAE。 “我们正扩大规模、持续迭代。更多模型与开源成果,将很快与大家见面。” NEO-unify原生一体化架构新范式 NEO-unify 第一次迈向真正的端到端统一框架,能够直接从近乎无损的信息输入中学习,并由模型自身塑造内部表征空间。首先,引入近似无损的视觉接口,用于统一图像的输入与输出表示;其次,...