智源发布 Emu3.5 多模态世界大模型
北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5,首次将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模。
Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。这意味着,Emu3.5不仅能理解当前场景,还能预判操作后的结果,并据此规划最优动作路径。
例如,用户输入“把这张照片中的咖啡杯移到桌子右边,并调亮整体色调”,Emu3.5不仅能精准识别对象与背景,还能分步执行移动、光照调整等复合操作,确保每一步输出都符合物理逻辑与视觉一致性。
在实测中,Emu3.5展现出强大的跨模态泛化与具身操作能力:
- 文图协同生成:根据复杂描述(如“赛博朋克风格的雨夜街道,霓虹灯反射在积水路面”)生成高细节图像;
- 智能图像编辑:支持语义级修改(如“更换人物服装风格为复古西装”),无需手动选区;
- 时空动态推理:可对视频帧序列进行连贯编辑,如“让奔跑的角色突然停下并转身”。
这种能力使其在机器人控制、虚拟助手、智能设计等需“感知-决策-执行”闭环的场景中潜力巨大。
不同于早期多模态模型仅做特征对齐,Emu3.5将文本、视觉、动作等模态统一编码为可预测的状态流,实现真正意义上的跨模态自由切换与协同推理。科研人员可借此高效处理异构数据,普通用户则能通过自然语言完成以往需专业软件才能实现的创作任务。
智源表示,Emu3.5将率先应用于教育(智能课件生成)、医疗(多模态病历分析)、娱乐(AI导演)等领域,并持续开源部分能力,推动多模态生态发展。
 关注公众号
关注公众号
					低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 
							
								
								    上一篇
								      Manus 基于“通用并行处理引擎”解决了上下文空间瓶颈Manus 发文介绍了其 Wide Research 功能。该功能采用“一任务一子代理”的并行架构,替代了传统的单模型顺序处理方式。这种架构能够消除长列表研究中出现的“编造阈值”,确保第50个项目与第1个项目获得同等深度的分析。 系统会将一个请求拆分成多个独立的子任务,并为每个子任务启动一个完整的 Manus 实例,包括独立的虚拟机、全套工具和空的上下文窗口。所有子代理并行执行,仅通过主控制器汇总结果,彼此之间不进行通信,以避免上下文污染。 该架构随任务量的增加而线性扩展,处理50个项目与5个项目的耗时接近,同时 hallucination 率显著下降。它适用于批量文档处理、多资产创意生成、大规模数据分析等场景。该功能现已向所有订阅者开放。 以下内容来自 Manus 官方博客:《Wide Research:超越上下文窗口》 AI 驱动研究的承诺一直很有吸引力:将信息收集和综合的繁琐工作委托给智能系统,从而释放人类认知能力用于更高阶的分析和决策。然而,任何在非平凡用例上推动这些系统的人都遇到了一个令人沮丧的现实:在多主题研究任务中,到第八或第九个项目时,AI 就开始编造内容。 不仅仅是简... 
- 
							
								
								    下一篇
								      RAG—Chunking策略实战|得物技术一、背 景 在 RAG 系统中,即便采用性能卓越的 LLM 并反复打磨 Prompt,问答仍可能出现上下文缺失、事实性错误或拼接不连贯等问题。多数团队会频繁更换检索算法与 Embedding模型,但收益常常有限。真正的瓶颈,往往潜伏在数据入库之前的一个细节——文档分块(chunking)。不当的分块会破坏语义边界,拆散关键线索并与噪声纠缠,使被检索的片段呈现“顺序错乱、信息残缺”的面貌。在这样的输入下,再强大的模型也难以基于支离破碎的知识推理出完整、可靠的答案。某种意义上,分块质量几乎决定了RAG的性能上限——它决定知识是以连贯的上下文呈现,还是退化为无法拼合的碎片。 在实际场景中,最常见的错误是按固定长度生硬切割,忽略文档的结构与语义:定义与信息被切开、表头与数据分离、步骤说明被截断、代码与注释脱节,结果就是召回命中却无法支撑结论,甚至诱发幻觉与错误引用。相反,高质量的分块应尽量贴合自然边界(标题、段落、列表、表格、代码块等),以适度重叠保持上下文连续,并保留必要的来源与章节元数据,确保可追溯与重排可用。当分块尊重文档的叙事与结构时,检索的相关性与答案的事实一致性往往显著提升,远胜... 
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker容器配置,解决镜像无法拉取问题
- Crontab安装和使用
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器

 
			
 
				 
				 
				 
				 
				 
				 
				



 微信收款码
微信收款码 支付宝收款码
支付宝收款码