MiniMax 开源视觉分词器扩展技术 VTP
MiniMax 联合华中科技大学首次开源了其视觉生成的关键技术 VTP (视觉分词器预训练) ,在不修改标准DiT的情况下,通过扩展视觉分词器(Visual Tokenizers),实现了 65.8% 的生成性能提升。
与很多tokenizer工作不同的是,VTP在设定上不对下游的主模型(DiT)训练过程做任何修改,仅通过前置优化tokenizer来实现端到端生成性能的倍数提升。
VTP预训练范式:
一句话来说——VTP把latents易学性和通用表征学习建立起明确关联,从而第一次将tokenizer作为scaling的主角,展现出全面的scaling曲线和扩展方向。VTP提供了一个全新的视角,指导我们除了在主模型上投入更多参数/算力/数据之外,还可以通过tokenizer的scaling来提升整个生成系统的性能。
代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1

