快手联合上交开源统一多模态生成理解模型 Orthus
在今年的ICML上,快手联合上海交通大学提出了一种支持图文交错生成的统一模型——Orthus,目前已开源。该模型基于自回归Transformer架构,能够从文生图、图到文等不同任务学习有价值信号。
根据介绍,仅使用极少的计算资源,Orthus便在多个图像理解指标上超越了现有混合理解生成模型Chameleon和Show-o,并在文生图生成的GenEval指标上优于专用扩散模型SDXL。此外,Orthus还展现出强大的图文交错数据建模能力,在图像编辑和网页生成任务中展现出巨大潜力。
Orthus具有以下核心特性:
- 自回归Transformer主干;
- 处理离散的文本token和连续的图像feature;
- 基于线性层定义的language head和diffusion MLP定义的image head来分别生成文和图;
- 足够计算高效。
如下图所示,项目团队利用上述两个heads,将图片细节的扩散建模从Transformer主干中解耦。该设计使得主干网络能够专注于刻画文本与图像特征表示之间的关联,而将图像细节信号的恢复任务交由更专业的diffusion head完成。这样解耦既缓解了图像离散化表示带来的信息损失,又避免了端到端扩散建模与自回归机制之间的分歧。本质上,Orthus可以看作何恺明在图像生成领域的工作 MAR 向多模态领域上的拓展。
具体实现上,Orthus 由以下组件构成:一个文本分词器、一个视觉自编码器、两个特定模态的嵌入模块、一个Transformer 主干网络和两个特定模态的输出头。
给定文本和图像,Orthus 会将离散的文本token(由文本分词器生成)和连续的图像特征(由视觉自编码器提供)嵌入到统一的表示空间中。在该空间内,自回归Transformer 主干负责建模模态内部(如文本-文本)及跨模态(文本-图像)之间的相互依赖关系。
在主干之上,Orthus 使用两个模态特定的头部来分别生成文本和图像:一个是常规的语言建模线性头,用于预测离散的文本token;另一个是扩散MLP头,用来生成连续的图像特征。在推理阶段,Orthus根据特殊标记的指示,自回归地预测下一个文本token或图像feature。
实验结果表明,得益于 Orthus 对图像的连续表示及扩散建模方法的优势,Orthus相较在同样的数据设定下微调的Chameleon表现更佳。
更多详情可查看官方公告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
商汤科技将成立独立的具身智能公司
根据雷峰网AI科技评论的独家报道,商汤科技将成立独立的具身智能公司,核心班底已经初步搭建起来,包括王晓刚、陶大程等视觉技术大咖,目前正在业内“招兵买马”。 报道称,商汤科技此前在 2025 技术交流日上展示了基于大装置 SenseCore 2.0 训练的具身智能成果——AI超市“双机协作”采购场景。活动现场,商汤也同傅利叶、松应科技两家机器人公司达成了战略合作。 据商汤大装置事业群业务人员透露,从 2024 年开始到今年,具身智能机器人领域的增量客户明显增多;为机器人本体企业训练提供模型能力的生态合作成为商汤重要定位,其全流程 AI 研发体系能通过端到端一站式平台支持千机并行仿真训练,为具身智能提供从开发到验证的闭环支持。 此外,商汤还领投了众擎机器人的天使轮系列,今年还在继续参投其 Pre-A 轮。
-
下一篇
jemalloc 作者自述:开发已陷入停滞
jemalloc内存分配器最初于2004年初构思,并且现在已公开使用了大约20年。由于开源软件许可的性质,jemalloc将无限期地保持公开可用。但积极的上游开发已结束。本文简要描述了jemalloc的发展阶段,每个阶段都有成功/失败的亮点,随后是一些回顾性的评论。 阶段0:Lyken 2004年,我在科学计算的背景下开始开发Lyken编程语言。Lyken最终成为了死胡同,但其手动内存分配器在2005年5月已经功能完整。(本应利用其功能的垃圾收集器从未完成。)2005年9月,我开始将分配器集成到FreeBSD中,并在2006年3月,为了使用线程特定数据和dlsym(3)实现的薄封装,我从Lyken中移除了分配器。 在投入了这么多精力之后,为什么又要从Lyken中移除内存分配器呢?一旦将分配器集成到FreeBSD后,就明显发现系统分配器的唯一缺失功能是跟踪分配量的机制,以便触发线程垃圾收集。而这可以通过使用线程特定数据和dlsym(3)的薄封装来实现。有趣的是,多年后,jemalloc甚至添加了Lyken需要的统计收集功能。 阶段1:FreeBSD 2005年,多处理器计算机的转变正在进...
相关文章
文章评论
共有0条评论来说两句吧...