小米大模型团队开源对角蛇形自回归图像生成方式
小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。
根据介绍,它不是一行一行地画,而是沿着图像的对角线、像蛇一样灵活地生成每个像素。这样的方式比传统方法更自然,也更接近人类绘画时的直觉。
我们提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架(DAR),有效地确保相邻索引的 token 在空间上紧密相邻。此外,方向感知模块显著增强了模型在处理频繁变化的生成方向上的表现。我们开发了一系列不同规模的模型,参数量从485M到2.0B不等。在实验中,我们的DAR模型在256×256的ImageNet基准测试中取得了突破性的FID分数(1.37),超越了此前所有自回归方法。
整个模型是decoder-only的结构,保持了和LLM兼容的next token prediction的训练和推理方法,decoder的网络结构跟LlamaGen一致。小米大模型团队选择IBQ工作中的image tokenizer的codebook作为图像token embedding。并创新地提出了4D-RoPE以及Direction Embedding来控制图像的生成方式。
实验结果:
小米大模型团队方面表示,接下来将进一步支持更灵活的多种分辨率图像生成。鉴于本方法与LLM的训练和推理方式高度兼容,还将持续探索更加统一的多模态理解与生成技术方案。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Anolis OS 8.10 发布:软硬协同优化,满足多行业实际应用需求
引言 龙蜥操作系统 Anolis OS 8 是 OpenAnolis 龙蜥社区发行的开源 Linux 发行版,支持多计算架构,提供稳定、高性能、安全、可靠的操作系统支持。Anolis OS 8.10 是 Anolis OS 8 发布的第六个小版本,通过软硬协同,不断完善生态,以满足各个行业领域的实际应用需求。 发布内容 龙蜥操作系统 Anolis OS 8.10 发布内容包括ISO、虚拟机镜像、容器镜像和 repo 源。 1、ISO 列表 名称 描述 AnolisOS-8.10-x86_64-dvd.iso x86_64 架构的基础安装 ISO,约 17.2 GB AnolisOS-8.10-x86_64-minimal.iso x86_64 架构的精简安装 ISO,约 2.9 GB AnolisOS-8.10-x86_64-boot.iso x86_64 架构的网络安装 ISO,约 1.2 GB AnolisOS-8.10-aarch64-dvd.iso aarch64 架构的基础安装 ISO,约 14.7 GB AnolisOS-8.10-aarch64-minimal.iso ...
- 下一篇
马建仓 AI 助手再进化:懂场景,也懂老板,但更懂你
马建仓 AI 助手上线 Gitee 企业版后,Gitee 团队针对企业使用场景对其进行了多项针对性的优化和更新,并在近期正式和开发者们见面。 本次更新围绕三个核心方向展开: 更懂场景的马建仓 任务入口全面聚合,推荐更贴合场景。 本次更新将马建仓 AI 助手入口统一整合,并支持在查看 PR、新建周报、缺陷详情、需求详情、代码文件等不同页面和使用场景下,智能推荐对应的 AI 能力。 下面是 PR 场景下马建仓 AI 助手的表现,开发者可以快速选择推荐的场景使用建议,也可以更有针对性地提出自己的详细需求。 ▲一键采用马建仓的智能场景建议 ▲也可以在当前场景选择其他的需求 除了 PR 场景外,无论是写需求、看代码,还是写周报,马建仓 AI 助手都能根据当前场景主动给出最合适的建议,进一步降低使用门槛、提升使用效率。 更懂老板的马建仓 多模态输入,需求描述不再受限。 面对更复杂的业务表达需求(比如来自老板的 60 秒语音转文字),马建仓 AI 助手现已支持文字结合最多五张图片的多模态输入,让马建仓帮你更好地将口头上的「需求」转化为更符合业务逻辑的「任务」。 ▲在多模态输入的加持下,马建仓 AI ...
相关文章
文章评论
共有0条评论来说两句吧...