智象未来提出全新自回归图像编辑框架 VAREdit
智象未来团队将视觉自回归(VAR)架构引入图像编辑,提出了全新的指令引导编辑框架 VAREdit,它精准地解决了扩散模型的固有顽疾。
VAREdit 将新颖的下一尺度预测范式引入指令引导的图像编辑框架,基于文本指令和量化的源图像特征预测目标图像的多尺度视觉残差,通过分析不同条件组织形式的有效性并提出新颖的 SAR 模块,实现了图像编辑在精准性和高效性的双重提升。
智象未来团队表示,VAREdit 能够做到“指哪打哪”,在严格遵循指令、提升编辑质量的同时,将生成效率推向了新的高度,实现了精准度与速度的双重突破。
模型与代码均已开源:
GitHub:https://github.com/HiDream-ai/VAREdit
在线使用:https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024
论文链接: https://arxiv.org/pdf/2508.15772

