小红书 AIGC 团队提出布局控制生成新算法 InstanceAssemble-低调大师

小红书 AIGC 团队提出布局控制生成新算法 InstanceAssemble

2025-12-25 167

小红书 AIGC 团队推出全新布局可控生成框架 InstanceAssemble，专为应对复杂场景下的 Layout-to-Image 任务。

InstanceAssemble 框架通过级联结构将文本语义与布局信息分阶段建模，并引入全新的 Assemble-Attention，让模型在面对高密度、多实例布局时依然能保持清晰的空间理解与精准对齐。

同时，InstanceAssemble 采用极轻量的 LoRA 适配方式（仅占 SD3-Medium 3.46%、Flux.1 0.84% 参数），即可在保持底模能力的前提下，实现灵活的文本与参考图多模态控制。我们还构建了全新的 DenseLayout 基准与可解释评价指标 LGS，让布局对齐的评估更加精确可靠。

整体来看，InstanceAssemble 在复杂布局场景下表现稳健，生成质量与可控性均达到业内领先水平。

论文标题：InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
论文链接：https://arxiv.org/abs/2509.16691
项目主页：https://github.com/FireRedTeam/InstanceAssemble

微信关注我们

原文链接：https://www.oschina.net/news/392130

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

原力灵机推出 GeoVLA 框架

原力灵机的研究团队推出了一种全新的 VLA 框架 ——GeoVLA。该框架在保持现有视觉 - 语言模型（VLM）强大预训练能力的同时，采用了创新的双流架构。具体来说，GeoVLA 引入了专用的点云嵌入网络(PEN)和空间感知动作专家(3DAE)，使机器人具备真正的三维几何感知能力。这一设计不仅在仿真环境中取得了领先的性能，更在真实世界的各种鲁棒性测试中表现出色。 GeoVLA 的核心逻辑在于将任务进行解耦：让 VLM 负责 “看懂是什么”，让点云网络负责 “看清在哪里”。这个全新的端到端框架包含了三个关键组件的协同工作，分别是语义理解流、几何感知流和动作生成流。这种方法使得模型能够更精准地进行任务。在一系列实验中，GeoVLA 展现出了明显的优势。在 LIBERO 基准测试中，GeoVLA 的成功率高达97.7%，超越了之前的 SOTA 模型。此外，在 ManiSkill2等更加复杂的物理仿真测试中，GeoVLA 的表现也相当出色，尤其在处理复杂物体和视角变化时，保持了较高的成功率。此外，GeoVLA 在分布外场景中的鲁棒性，证明了其在应对各种不确定性和变化条件下的强大适应能力。...

2025-12-25

115

科技媒体 Phoronix 报道称，即将发布的 Linux 内核 6.19 对 AMD 旧款显卡带来了显著性能改善，特别是对于基于 GCN 1.0/1.1 架构的经典 Radeon HD 系列显卡而言，这次更新堪称“惊喜大礼”。长期以来，AMD 早期的 GPU（代号 Southern Islands 和 Sea Islands）在 Linux 下默认使用的是老旧的 Radeon DRM 内核驱动，该驱动维护有限、功能落后，与现代显卡驱动存在明显差距。 Linux 6.19 将默认驱动从传统的 Radeon 内核驱动切换为更现代、高效的 AMDGPU 内核驱动。这意味着这些老显卡可以直接使用与新一代显卡相同的驱动堆栈，获得更全面的优化和支持。驱动迁移得以实现得益于来自开源社区（特别是 Valve 驱动团队及开发者 Timur Kristóf）的贡献，这让 AMDGPU 实现了与旧显卡在功能和稳定性上的“特性对等”，从而得以作为默认驱动。 Phoronix 在 Ubuntu 25.10 平台上对一张 AMD Radeon HD 7950（2012 年发布）进行了测试，结果显示：在默...

2025-12-25

118

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。