智源发布 Emu3.5 多模态世界大模型-低调大师

智源发布 Emu3.5 多模态世界大模型

2025-10-30 131

北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5，首次将自回归式“下一状态预测”（Next-State Prediction， NSP）引入多模态序列建模。

Emu3.5的核心突破在于其统一的NSP框架：模型将文本、图像、动作指令等多模态输入视为连续状态序列，通过预测“下一个状态”来实现端到端的智能推理。这意味着，Emu3.5不仅能理解当前场景，还能预判操作后的结果，并据此规划最优动作路径。

例如，用户输入“把这张照片中的咖啡杯移到桌子右边，并调亮整体色调”，Emu3.5不仅能精准识别对象与背景，还能分步执行移动、光照调整等复合操作，确保每一步输出都符合物理逻辑与视觉一致性。

在实测中，Emu3.5展现出强大的跨模态泛化与具身操作能力：

文图协同生成：根据复杂描述（如“赛博朋克风格的雨夜街道，霓虹灯反射在积水路面”）生成高细节图像;
智能图像编辑：支持语义级修改（如“更换人物服装风格为复古西装”），无需手动选区;
时空动态推理：可对视频帧序列进行连贯编辑，如“让奔跑的角色突然停下并转身”。

这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。

不同于早期多模态模型仅做特征对齐，Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流，实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据，普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。

智源表示，Emu3.5将率先应用于教育（智能课件生成）、医疗(多模态病历分析)、娱乐(AI导演)等领域，并持续开源部分能力，推动多模态生态发展。

微信关注我们

原文链接：https://www.oschina.net/news/380462

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Manus 基于“通用并行处理引擎”解决了上下文空间瓶颈

Manus 发文介绍了其 Wide Research 功能。该功能采用“一任务一子代理”的并行架构，替代了传统的单模型顺序处理方式。这种架构能够消除长列表研究中出现的“编造阈值”，确保第50个项目与第1个项目获得同等深度的分析。系统会将一个请求拆分成多个独立的子任务，并为每个子任务启动一个完整的 Manus 实例，包括独立的虚拟机、全套工具和空的上下文窗口。所有子代理并行执行，仅通过主控制器汇总结果，彼此之间不进行通信，以避免上下文污染。该架构随任务量的增加而线性扩展，处理50个项目与5个项目的耗时接近，同时 hallucination 率显著下降。它适用于批量文档处理、多资产创意生成、大规模数据分析等场景。该功能现已向所有订阅者开放。以下内容来自 Manus 官方博客：《Wide Research：超越上下文窗口》 AI 驱动研究的承诺一直很有吸引力:将信息收集和综合的繁琐工作委托给智能系统,从而释放人类认知能力用于更高阶的分析和决策。然而,任何在非平凡用例上推动这些系统的人都遇到了一个令人沮丧的现实:在多主题研究任务中,到第八或第九个项目时,AI 就开始编造内容。不仅仅是简...

2025-10-30

141

一、背景在 RAG 系统中，即便采用性能卓越的 LLM 并反复打磨 Prompt，问答仍可能出现上下文缺失、事实性错误或拼接不连贯等问题。多数团队会频繁更换检索算法与 Embedding模型，但收益常常有限。真正的瓶颈，往往潜伏在数据入库之前的一个细节——文档分块（chunking）。不当的分块会破坏语义边界，拆散关键线索并与噪声纠缠，使被检索的片段呈现“顺序错乱、信息残缺”的面貌。在这样的输入下，再强大的模型也难以基于支离破碎的知识推理出完整、可靠的答案。某种意义上，分块质量几乎决定了RAG的性能上限——它决定知识是以连贯的上下文呈现，还是退化为无法拼合的碎片。在实际场景中，最常见的错误是按固定长度生硬切割，忽略文档的结构与语义：定义与信息被切开、表头与数据分离、步骤说明被截断、代码与注释脱节，结果就是召回命中却无法支撑结论，甚至诱发幻觉与错误引用。相反，高质量的分块应尽量贴合自然边界（标题、段落、列表、表格、代码块等），以适度重叠保持上下文连续，并保留必要的来源与章节元数据，确保可追溯与重排可用。当分块尊重文档的叙事与结构时，检索的相关性与答案的事实一致性往往显著提升，远胜...

2025-10-30

148

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。