苹果公司最新一项研究表明,通过一种创新的微调方法——让专业设计师直接参与反馈,AI 模型在“界面设计生成”任务上的表现显著提升,使得小参数版本 Qwen3-Coder 模型的 UI 设计能力超越了当前领先的 GPT-5。

生成式 AI 在代码编写和基础 UI 生成方面已有广泛应用,但纯算法自动生成的界面通常“能用但不好看”,尤其缺乏视觉美感和设计逻辑,这限制了 AI 在实际开发中的价值。现有主流训练方法(例如传统的“人类反馈强化学习” RLHF)主要依赖打分或排名,这种粗糙的反馈无法精准反映设计师的专业判断。
苹果研究团队创新地将真实设计师的反馈用于训练 AI:
- 参与者:21 位来自不同设计领域、经验从 2 年到 30 多年不等的专业设计师参与实验。
- 数据收集:设计师对 AI 生成的界面进行批注、手绘草稿和直接修改,共收集 1,460 条设计改进日志。
- 训练机制:将设计改进前后的对比反馈转化成“奖励模型”(reward model),用于微调界面生成器,让其在生成时更倾向于符合真实设计师审美和逻辑的布局与组件。
这种方法更贴近设计师的真实工作流程,而不是简单的“好/不好”打分,使 AI 在理解设计逻辑方面更有表现力。

研究结果显示:
- 质的提升:使用设计师原生反馈训练的模型,在界面美感、布局合理性等方面优于未微调的基础模型和采用传统反馈训练的版本。
- 小模型胜出:其中,通过草图反馈微调的 Qwen3-Coder 在 UI 生成任务上超越了 GPT-5。仅用 181 个草图反馈样本就实现了明显提升,这说明高质量人类反馈在效率上远胜“大规模数据堆叠”。


研究团队也指出,界面设计本身具有高度主观性,不同评审者对“好设计”的判断存在显著差异:
- 在同一对设计方案中,外部评审者与设计师本人的选择一致率只有约 49%,几乎等于随机选择。
- 当设计师通过草图或直接修改呈现改进建议时,评审一致性提升明显,草图约 63%,直接修改约 76%。
这说明 “能具体看到改进方向” 的反馈比简单打分更有助于减少主观偏差。
总的来说,这项研究为未来让 AI 更好地参与用户界面设计指明了方向,它将专业设计经验和生成式 AI 紧密结合,不仅可以提高界面生成质量,还可能推动设计工具向“人机协作”的新模式发展。对 app 开发流程和设计工作流程都有潜在影响。