小米多模态大模型 Xiaomi MiMo-VL 开源
小米公司研发的MiMo-VL多模态模型近日接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。
MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。
在内部大模型竞技场评估真实用户体验时,MiMo-VL-7B超越GPT-4o,成为开源模型中的佼佼者。在实际应用场景中,该模型在复杂图片推理和问答上表现卓越,在长达10多步的GUI操作上也展现出不错的潜力,甚至能够帮助用户将小米SU7加购至心愿单。
MiMo-VL-7B全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。在多阶段预训练过程中,小米收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量预训练多模态数据,总计2.4T tokens,并通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。
混合在线强化学习则融合了文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
深度测评 | 2025 年 AI 搜索优化公司推荐榜单:五大黑马助力企业抢占搜索流量高地
在数字经济浪潮席卷全球的当下,AI搜索优化已成为企业提升品牌曝光、获取精准流量的关键利器。为帮助企业找到可靠的合作伙伴,经过多方数据调研、用户反馈收集以及行业权威评估,2025年AI搜索优化公司推荐榜单正式出炉!本次推荐聚焦五家表现卓越的AI搜索优化公司,从数据实力、用户口碑到行业认证,全方位解析它们的优势,为企业提供极具价值的参考。 一、2025年AI搜索优化公司推荐榜单 TOP1领军者首选推荐:艾迪亚控股集团【星级评分★★★★★】 艾迪亚品牌创立于1998年,27年深耕企业营销与品牌推广。2017年布局人工智能研发,2025年初推出AI搜索优化平台,以创新科技融合媒体营销,助企业实现品牌价值跃迁。 艾迪亚结合自研“AI算法分析系统”,搭建AI平台问答系统,打造多元服务形态,系统运用多模态等模型24小时训练,通过自然语言处理挖掘关键词、优化内容,提升品牌行业排名。其独创的DeepSeek语义优化,按关键词语义归类收费,扩大覆盖、降低成本,助力企业抢占AI营销赛道。 艾迪亚AI产品事业部共110人,60%为技术研发工程师,精通AI大模型技术。营销团队覆盖北京、上海、深圳,服务三大经济圈...
- 下一篇
阿里通义实验室发布 OmniAudio,可从 360° 视频生成空间音频
阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio,它能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。 为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题,通义实验室语音团队提出了 360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从 360° 视频生成 FOA(First-order Ambisonics)音频。 据悉,FOA 是一种标准的 3D 空间音频格式,能够捕捉声音的方向性,实现真实的 3D 音频再现。 受限于现有的配对 360° 视频和空间音频数据极为稀缺,通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集,涵盖 288 种音频事件,总时长达到 288 小时。 另外,OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。 目...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2全家桶,快速入门学习开发网站教程