字节开源原生视频/图像生成理解编辑统一模型 Lance-低调大师

字节开源原生视频/图像生成理解编辑统一模型 Lance

2026-05-21 68

ByteDance Intelligent Creation Lab 宣布推出了一款原生统一多模态模型Lance，以 3B 激活参数和多任务协同训练，在单一原生统一框架中支持图像/视频理解、生成与编辑，兼顾资源效率、能力广度与跨任务泛化。目前相关模型权重和代码以开源。

根据介绍，Lance 的核心优势之一，是在 3B 模型规模下提供更完整的多任务支持。它不是将若干模块简单拼接，而是在统一上下文空间中联合建模不同模态与任务，使理解、生成和编辑能力能够相互促进。

Lance 在视频生成中能够准确遵循复杂文本指令，生成具备自然运动、稳定时序一致性、清晰视觉细节和较强语义表达的视频内容。

在视频编辑中能够根据文本指令实现对象替换、背景变化、风格迁移与细粒度属性修改，同时保持主体身份、画面结构和运动过程的时序一致性，并支持多轮一致性编辑。

在视频理解中能够准确识别动态场景中的人物、物体、动作与时序变化，并结合视觉细节、OCR 信息和上下文语义生成细致可靠的描述与问答结果。

图像生成方面，可根据复杂文本指令生成较高质量、视觉自然的图像内容，并在数量关系、属性绑定、空间布局和风格控制等方面展现出较强的组合生成能力。

以及可基于自然语言指令完成图像中的主体增删、局部替换、风格迁移、动作调整和自由形式编辑，并在修改过程中较好地保持主体身份、画面结构和视觉一致性。

Lance 具备较强的图像理解能力，可准确识别图像中的物体、人物、场景、文字信息和空间关系，并结合视觉细节完成内容描述、OCR 理解和问答推理。

Lance 整体架构示意图：

Lance 的核心设计围绕两个原则展开：一方面，通过统一上下文建模，将文本、图像和视频组织为共享的交错多模态序列，使不同任务能够在同一上下文空间中进行信息交互；另一方面，通过解耦能力路径，为理解和生成分别分配专门化的表征与模型容量，避免异质任务在优化目标和视觉表示上相互干扰。

具体来看，Lance 采用 dual-stream mixture-of-experts 架构：理解路径主要处理文本 token 与语义视觉 token，用于图像/视频理解、问答和推理；生成路径主要处理 VAE latent token，用于图像/视频生成与编辑。两条路径共享统一的交错多模态上下文，但在能力建模上保持解耦，从而兼顾跨任务交互与任务专门化。

此外，为了更好地协调统一序列中的异构视觉 token，Lance 引入了 Modality-Aware Rotary Positional Encoding（MaPE）。在统一多模态训练中，同一序列中可能同时包含用于理解的语义 ViT token、用于生成条件的 clean VAE token，以及作为生成目标的 noisy VAE token。它们来源不同、功能不同，如果仅使用标准位置编码，容易造成位置空间中的角色混淆。

MaPE 通过在位置编码的时间维度中加入模态/功能组信息，使得模型在不破坏图像的空间结构和视频的时序关系的同时，能够显式区分不同视觉 token 的作用。整体而言，MaPE 有助于缓解多任务联合优化过程中的异构视觉 token 之间的位置干扰，并提升跨任务上下文对齐能力。

一些评测结果如下：

微信关注我们

原文链接：https://www.oschina.net/news/443578

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 推理模型推翻 80 年几何猜想：AI 首次自主证明 Erdős 开放问题

数学界迎来了一次里程碑式突破。OpenAI近日宣布，其内部推理模型生成了一份原创数学证明，推翻了保罗·Erdős于1946年提出的单位距离猜想——一个困扰数学家近80年的离散几何开放问题。这一成果的发布紧随OpenAI上一次失败之后。七个月前，前副总裁Kevin Weil曾宣称GPT-5解决了10个Erdős问题，但随后被学界证伪：那些"解法"不过是模型从已有学术文献中检索出来的，而非真正的原创证明。这一次，OpenAI吸取了教训，邀请了多位知名数学家对证明进行独立验证。 Thomas Bloom、Noga Alon、Melanie ...

2026-05-21

549

Mozilla近日宣布Firefox 148将开始默认禁用SpiderMonkey的asm.js优化，并计划在未来版本中完全移除该代码。这意味着一项Web性能史上最具开创性的技术实验即将落幕。 SpiderMonkey是Mozilla的JavaScript和WebAssembly引擎，被广泛应用于Firefox、Servo以及其他众多项目中。它采用C++、Rust和JavaScript编写。您可以将其嵌入到C++和Rust项目中，也可作为独立shell运行。此外，它还可以编译为WASI。 asm.js诞生于2013年Firefox 22发布之时，它是一个JavaScript的严格静态类型子集，...

2026-05-21

54

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。