苹果将在 ICCV 2025 展示多项前沿视觉研究成果
苹果宣布将携多篇论文亮相 2025 年国际计算机视觉大会(ICCV 2025),展现其在多模态 AI、图像生成与视频理解等领域的研究实力。大会将于 10 月 19 日至 23 日在夏威夷檀香山举行。
今年,苹果共有八篇论文 入选大会,涵盖从文本生成视频的评估方法、三维空间理解、多模态模型的扩展规律,到图像生成与编辑的统一扩散模型等前沿方向。其中包括:
-
ETVA:一种评估文本与视频对齐度的新方法;
-
MM-Spatial:探索多模态大模型的 3D 空间理解能力;
-
Scaling Laws for Native Multimodal Models:研究多模态模型的扩展规律;
-
Stable Diffusion Models are Secretly Good at Visual In-Context Learning:揭示稳定扩散模型在视觉上下文学习中的潜力;
-
UniVG:面向统一图像生成与编辑的通用扩散模型;
-
以及面向交互式智能体评测的 UINavBench 等研究。
此外,苹果应用研究经理 Dr. C. Thomas 将在大会的工业视觉检测专题中发表主旨演讲。苹果研究团队成员 Patricia Vitoria Carrera 与 Tanya Glozman 也将参与 “女性在计算机视觉”(Women in Computer Vision (WiCV) Workshop)工作坊担任导师,支持学术多元化。
