LongCat-Flash-Omni正式发布并开源：开启全模态实时交互时代-低调大师

LongCat-Flash-Omni正式发布并开源：开启全模态实时交互时代

2025-11-03 35

自9月1日，美团正式发布 LongCat-Flash 系列模型，现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本，获得了开发者的关注。今天 LongCat-Flash 系列再升级，正式发布全新家族成员——LongCat-Flash-Omni。

LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础（ Shortcut-Connected MoE，含零计算专家），同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿（激活参数 270 亿）的庞大参数规模下，仍实现了低延迟的实时音视频交互能力，为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明，LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平（SOTA），同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中，均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型，首次在开源范畴内实现了全模态能力对闭源模型的对标，并凭借创新的架构设计与工程优化，让大参数模型在多模态任务中也能实现毫秒级响应，解决了行业内推理延迟的痛点。

模型已同步开源，欢迎体验：

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github：https://github.com/meituan-longcat/LongCat-Flash-Omni

技术亮点

极致性能的一体化全模态架构

LongCat-Flash-Omni 是一款拥有极致性能的开源全模态模型，在一体化框架中整合了离线多模态理解与实时音视频交互能力。该模型采用完全端到端的设计，以视觉与音频编码器作为多模态感知器，由 LLM 直接处理输入并生成文本与语音token，再通过轻量级音频解码器重建为自然语音波形，实现低延迟的实时交互。所有模块均基于高效流式推理设计，视觉编码器、音频编解码器均为轻量级组件，参数量均约为6亿，延续了 LongCat-Flash 系列的创新型高效架构设计，实现了性能与推理效率间的最优平衡。

大规模、低延迟的音视频交互能力

LongCat-Flash-Omni 突破 “大参数规模与低延迟交互难以兼顾” 的瓶颈，在大规模架构基础上实现高效实时音视频交互。该模型总参数达 5600 亿（激活参数 270 亿），却依托 LongCat-Flash 系列创新的 ScMoE 架构（含零计算专家）作为 LLM 骨干，结合高效多模态编解码器和“分块式音视频特征交织机制”，最终实现低延迟、高质量的音视频处理与流式语音生成。模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互，在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。

渐进式早期多模融合训练策略

全模态模型训练的核心挑战之一是 “不同模态的数据分布存在显著异质性”，LongCat-Flash-Omni 采用渐进式早期多模融合训练策略，在平衡数据策略与早期融合训练范式下，逐步融入文本、音频、视频等模态，确保全模态性能强劲且无任何单模态性能退化。

阶段 0：大规模文本预训练，利用成熟稳定的大语言模型为后续多模态学习奠定坚实基础；
阶段 1：引入与文本结构更接近的语音数据，实现声学表征与语言模型特征空间的对齐，有效整合副语言信息；
阶段 2：在文本 - 语音对齐基础上，融入大规模图像 - 描述对与视觉 - 语言交织语料，实现视觉 - 语言对齐，丰富模型视觉知识；
阶段 3：引入最复杂的视频数据，实现时空推理，同时整合更高质量、更多样化的图像数据集以增强视觉理解；
阶段 4：将模型上下文窗口从 8K 扩展至 128K tokens，进一步支持长上下文推理与多轮交互；
阶段 5：为缓解离散语音 tokens 的信息丢失，进行音频编码器对齐训练，使模型能直接处理连续音频特征，提升下游语音任务的保真度与稳健性。

全模态不降智，性能达到开源SOTA

经过全面的综合评估显示：LongCat-Flash-Omni 不仅在综合性的全模态基准测试（如Omni-Bench, WorldSense）上达到了开源最先进水平（SOTA），其在文本、图像、音频、视频等各项模态的能力均位居开源模型前列，真正实现了“全模态不降智”。

文本：LongCat-Flash-Omni 延续了该系列卓越的文本基础能力，且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本，该模型不仅未出现文本能力的衰减，反而在部分领域实现了性能提升。这一结果不仅印证了我们训练策略的有效性，更凸显出全模态模型训练中不同模态间的潜在协同价值。
图像理解：LongCat-Flash-Omni 的性能（RealWorldQA 74.8分）与闭源全模态模型 Gemini-2.5-Pro 相当，且优于开源模型 Qwen3-Omni；多图像任务优势尤为显著，核心得益于高质量交织图文、多图像及视频数据集上的训练成果。
音频能力：从自动语音识别（ASR）、文本到语音（TTS）、语音续写维度进行评估，Instruct Model 层面表现突出：ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro；语音到文本翻译（S2TT）在 CoVost2 表现强劲；音频理解在 TUT2017、Nonspeech7k 等任务达当前最优；音频到文本对话在 OpenAudioBench、VoiceBench 表现优异，实时音视频交互评分接近闭源模型，类人性指标优于 GPT-4o，实现基础能力到实用交互的高效转化。
视频理解：LongCat-Flash-Omni 视频到文本任务性能达当前最优，短视频理解大幅优于现有参评模型，长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL，这得益于动态帧采样、分层令牌聚合的视频处理策略，及高效骨干网络对长上下文的支持。
跨模态理解：性能优于 Gemini-2.5-Flash（非思考模式），比肩 Gemini-2.5-Pro（非思考模式）；尤其在真实世界音视频理解WorldSense 基准测试上，相较其他开源全模态模型展现出显著的性能优势，印证其高效的多模态融合能力，是当前综合能力领先的开源全模态模型。

端到端交互：由于目前行业内尚未有成熟的实时多模态交互评估体系，LongCat 团队构建了一套专属的端到端评测方案，该方案由定量用户评分（250 名用户评分）与定性专家分析（10 名专家，200 个对话样本）组成。定量结果显示：围绕端到端交互的自然度与流畅度，LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分；定性结果显示：LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平，但是在实时性、类人性与准确性三个维度仍存在差距，也将在未来工作中进一步优化。

快来跟 LongCat 语音吧！

你可以通过 https://longcat.ai/ 体验图片、文件上传和语音通话功能。

另外，我们非常激动的告诉大家，LongCat 官方 App 现已正式发布，支持联网搜索，还可以发起语音通话（视频通话功能敬请期待）。您可以通过扫描下方二维码下载使用，iOS用户可直接在APP Store中搜索“LongCat”获取。

LongCat-Flash-Omni 在开源平台已上线，欢迎开发者们探索和使用：

Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github：https://github.com/meituan-longcat/LongCat-Flash-Omni

期待听到您的反馈。

| 关注「美团技术团队」微信公众号，在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者使用。任何商用行为，请发送邮件至 tech@meituan.com 申请授权。

微信关注我们

原文链接：https://my.oschina.net/meituantech/blog/18698408

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

用户说“App 卡死了”，你却查不到原因？可能是监控方式错了

作者：高玉龙（元泊）背景介绍当用户使用 App 时产生不好的体验，问题往往出现在以下场景：打开复杂页面时出现黑屏/白屏延迟列表滑动时偶发性卡顿图片加载时界面响应滞后网络请求密集时出现操作卡死等现象这些场景不仅出现在低端设备上，在中高端机型中同样存在。如果主线程无法响应用户的交互就会造成卡顿，卡顿时间比较长是比较影响 App 的功能和用户体验的。在移动应用开发中，卡顿问题也始终是影响用户体验的核心痛点。通常情况下，导致主线程阻塞并引发卡顿的原因主要有以下几种：繁重的 UI 渲染：当界面包含复杂的视图层级、大量的图文混排内容时，计算布局和绘制到屏幕上的工作量会急剧增加，超出单次刷新周期的处理能力。主线程同步网络请求：在主线程中发起同步的网络调用，意味着整个应用必须等待网络数据返回后才能继续执行，期间无法响应任何用户操作。大量的文件读写（I/O）：在主线程上直接进行大规模的数据读取或写入操作，例如读写数据库或本地文件，会因为磁盘速度的限制而消耗大量时间。高负荷的计算任务：将复杂的算法或大量数据的处理逻辑直接放在主线程执行，会导致 CPU 持续处于高占用状态，无暇顾及 ...

2025-11-03

42

在前面的课程中，我们探讨了RAG（Retrieval-Augmented Generation）的基本原理及其在纯文本处理中的应用。RAG 通过从外部知识库检索相关信息，结合上下文生成更准确、信息丰富的回答，从而提升基于文本的问答系统能力。然而，现实世界中的信息并不局限于文本，例如 PDF 文档中的图片、表格等多模态数据也承载着大量有价值的知识。在某些情况下，这些图文并茂的内容比纯文本更直观、有效。但 RAG 主要依赖文本检索和生成，对 PDF 文件中的图片处理能力较弱，无法直接解析和利用图像信息进行检索或生成，可能导致关键信息遗漏，影响最终回答质量。因此，在 RAG 处理包含重要图片信息的 PDF 文档时，需要结合OCR（光学字符识别）或计算机视觉技术进行补充，以提高内容解析能力。本节课程将介绍如何在 RAG 系统中处理PDF 中的图片与表格，并提取其中的关键信息进行问答，从而增强系统对多模态数据的理解与应用。多模态模型一、为什么要引入多模态 ? 在实际应用中，我们常常需要从合同、报告、产品说明书等多种形式的文档中提取有用信息。这些文档不仅包含丰富的文字内容，还可能包括...

2025-11-03

34

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。