智源发布原生多模态世界模型 Emu3
智源研究院宣布正式发布原生多模态世界模型 Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。
目前 Emu3 已开源了关键技术和模型。
公告称,Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。
Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。
此外,受益于Emu3下一个token预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致。
Emu3研究结果证明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身,能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
TimescaleDB 2.17.1 发布,基于 PostgreSQL 的时序数据库
TimescaleDB 是一个开源数据库,旨在使 SQL 可扩展到时间序列数据,基于 PostgreSQL 构建的,并打包为 PostgreSQL 扩展程序,提供跨时间和空间的自动分区,以及完整的 SQL 支持。 TimescaleDB 2.17.1 现已发布,此版本包含自 2.17.0 版本以来的错误修复。具体更新内容如下: Features #7360添加chunk skipping GUC Bugfixes #7335更改压缩中使用的日志级别 #7342修复内存元组过滤的排序规则 更新说明:https://github.com/timescale/timescaledb/releases/tag/2.17.1
- 下一篇
🥇荣誉上新|Alluxio 斩获「 OSCAR尖峰开源项目及开源社区 」
2024年10月16日,由中国通信标准化协会主办,中国信息通信研究院承办,中国信息通信研究院云计算开源产业联盟、金融行业开源技术应用社区、通信行业开源社区、科技制造开源社区、汽车行业开源社区、可信开源社区共同体、可信开源合规计划支持的开源领域顶级盛会——“OSCAR开源产业大会”在京成功举办,旨在进一步探索中国开源生态发展模式,加速开源技术在国内市场落地,提升企业开源治理能力,推动国内开源生态快速、健康有序发展。 🎯 大会特设立 “OSCAR 开源尖峰案例”评选,经过几个月多轮筛选,Alluxio在技术创新、社区建设和应用推广方面受到专家评委们的一致认可,从众多优秀的开源项目和社区中脱颖而出,斩获「OSCAR尖峰开源项目及开源社区」称号。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果