小米多模态大模型 Xiaomi MiMo-VL 开源-低调大师

小米多模态大模型 Xiaomi MiMo-VL 开源

2025-05-30 428

小米公司研发的MiMo-VL多模态模型近日接过MiMo-7B的接力棒，在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B，在GUI Grounding任务上的表现更是可与专用模型相媲美，为Agent时代的到来做好了准备。

MiMo-VL-7B在多模态推理任务上成绩斐然，尽管参数规模仅为7B，却在奥林匹克竞赛（OlympiadBench）和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，同时也超越了闭源模型GPT-4o。

在内部大模型竞技场评估真实用户体验时，MiMo-VL-7B超越GPT-4o，成为开源模型中的佼佼者。在实际应用场景中，该模型在复杂图片推理和问答上表现卓越，在长达10多步的GUI操作上也展现出不错的潜力，甚至能够帮助用户将小米SU7加购至心愿单。

MiMo-VL-7B全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法（MORL）。在多阶段预训练过程中，小米收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量预训练多模态数据，总计2.4T tokens，并通过分阶段调整不同类型数据的比例，强化了长程多模态推理的能力。

混合在线强化学习则融合了文本推理、多模态感知+推理、RLHF等反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升了模型的推理、感知性能和用户体验。

微信关注我们

原文链接：https://www.oschina.net/news/352699

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深度测评 | 2025 年 AI 搜索优化公司推荐榜单：五大黑马助力企业抢占搜索流量高地

在数字经济浪潮席卷全球的当下，AI搜索优化已成为企业提升品牌曝光、获取精准流量的关键利器。为帮助企业找到可靠的合作伙伴，经过多方数据调研、用户反馈收集以及行业权威评估，2025年AI搜索优化公司推荐榜单正式出炉！本次推荐聚焦五家表现卓越的AI搜索优化公司，从数据实力、用户口碑到行业认证，全方位解析它们的优势，为企业提供极具价值的参考。一、2025年AI搜索优化公司推荐榜单 TOP1领军者首选推荐：艾迪亚控股集团【星级评分★★★★★】艾迪亚品牌创立于1998年，27年深耕企业营销与品牌推广。2017年布局人工智能研发，2025年初推出AI搜索优化平台，以创新科技融合媒体营销，助企业实现品牌价值跃迁。艾迪亚结合自研“AI算法分析系统”，搭建AI平台问答系统，打造多元服务形态，系统运用多模态等模型24小时训练，通过自然语言处理挖掘关键词、优化内容，提升品牌行业排名。其独创的DeepSeek语义优化，按关键词语义归类收费，扩大覆盖、降低成本，助力企业抢占AI营销赛道。艾迪亚AI产品事业部共110人，60%为技术研发工程师，精通AI大模型技术。营销团队覆盖北京、上海、深圳，服务三大经济圈...

2025-05-30

1076

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio，它能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题，通义实验室语音团队提出了 360V2SA（360-degree Video to Spatial Audio）任务，旨在直接从 360° 视频生成 FOA（First-order Ambisonics）音频。据悉，FOA 是一种标准的 3D 空间音频格式，能够捕捉声音的方向性，实现真实的 3D 音频再现。受限于现有的配对 360° 视频和空间音频数据极为稀缺，通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集，涵盖 288 种音频事件，总时长达到 288 小时。另外，OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。目...

2025-05-30

338

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。