谷歌推出新的文本生成图像模型“Muse”,声称性能为同类最佳

自 2021 年初以来,AI 领域推出大量基于文本到图像的模型(例如 DALL-E-2Stable Diffusion 和 Midjourney 等)。近日,谷歌也公开了一款名为“Muse”的基于文本生成图像的模型,声称可以实现最先进的图像生成性能。 

下图均为 Muse 的基于文本生成的图像

  • 一群鱼在海里拼成“MUSE”字样
  • 嘴里叼着“MUSE”牌子的威尔士柯基
  • 带有“Muse”的拿铁咖啡
  • 壁炉中的火焰呈现“MUSE”字样

   

   

Muse 在离散标记空间中接受掩蔽建模任务的训练:给定从预训练的大型语言模型 (LLM) 中提取的文本嵌入,训练 Muse 以预测随机掩蔽的图像标记。使用预训练的 LLM 可以实现细粒度的语言理解,转化为高保真图像生成以及对视觉概念(例如对象)的理解,比如空间关系、姿势、基数等。

总体来说,MUSE 的优势在于其 FID 和 CLIP 分数更高、生成效率比其他同类模型快得多,且支持开箱即用的蒙版编辑功能(即支持通过蒙版继续编辑已生成的图片)。

分数更高:MUSE 模型获得了出色的 FID 和 CLIP 分数,可定量衡量图像生成质量、多样性和与文本的对齐情况。数据方面,MUSE 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。

生成效率:由于使用压缩的、离散的潜在空间和并行解码,MUSE 模型比其他同类模型快得多。与 Imagen 和 DALL-E 2 等像素空间扩散模型相比,Muse 使用离散标记,且需要的采样迭代更少,因此生成效率显著提高;与谷歌自己的 Parti 等自回归模型相比,Muse 使用了并行解码,生成效率也更高。

编辑功能: MUSE 支持基于蒙版的编辑功能,比如下图,通过在左图创建蒙版并输入“热气球”,便可生成右边的新图片。

另外,Muse 团队指出,当今语言和图像人工智能系统的用例存在一些“潜在的危害”,例如社会偏见或传播错误信息。出于这个原因,该团队并未发布 MUSE 的源代码和任何公开的 Demo 演示。

MUSE 主页可以看到更多基于 MUSE 的图像作品,下图为部分 MUSE 作品预览:

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/224254/google-muse

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。