智源发布原生多模态世界模型 Emu3-低调大师

智源发布原生多模态世界模型 Emu3

2024-10-22 280

智源研究院宣布正式发布原生多模态世界模型 Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

目前 Emu3 已开源了关键技术和模型。

公告称，Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型，但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术，只需要预测下一个token。

Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。

此外，受益于Emu3下一个token预测框架的灵活性，直接偏好优化(DPO)可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3研究结果证明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身，能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

微信关注我们

原文链接：https://www.oschina.net/news/317123

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

TimescaleDB 2.17.1 发布，基于 PostgreSQL 的时序数据库

TimescaleDB 是一个开源数据库，旨在使 SQL 可扩展到时间序列数据，基于 PostgreSQL 构建的，并打包为 PostgreSQL 扩展程序，提供跨时间和空间的自动分区，以及完整的 SQL 支持。 TimescaleDB 2.17.1 现已发布，此版本包含自 2.17.0 版本以来的错误修复。具体更新内容如下： Features #7360添加chunk skipping GUC Bugfixes #7335更改压缩中使用的日志级别 #7342修复内存元组过滤的排序规则更新说明：https://github.com/timescale/timescaledb/releases/tag/2.17.1

2024-10-22

308

2024年10月16日，由中国通信标准化协会主办，中国信息通信研究院承办，中国信息通信研究院云计算开源产业联盟、金融行业开源技术应用社区、通信行业开源社区、科技制造开源社区、汽车行业开源社区、可信开源社区共同体、可信开源合规计划支持的开源领域顶级盛会——“OSCAR开源产业大会”在京成功举办，旨在进一步探索中国开源生态发展模式，加速开源技术在国内市场落地，提升企业开源治理能力，推动国内开源生态快速、健康有序发展。  🎯 大会特设立 “OSCAR 开源尖峰案例”评选，经过几个月多轮筛选，Alluxio在技术创新、社区建设和应用推广方面受到专家评委们的一致认可，从众多优秀的开源项目和社区中脱颖而出，斩获「OSCAR尖峰开源项目及开源社区」称号。

2024-10-22

246

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。