您现在的位置是:首页 > 文章详情

美团正式发布并开源 LongCat-Flash-Omni

日期:2025-11-03点击:16

美团宣布 LongCat-Flash 系列模型再升级,正式发布全新家族成员——LongCat-Flash-Omni。

据介绍,LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。

LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。

LongCat-Flash-Omni 作为一款拥有极致性能的开源全模态模型,在一体化框架中整合了离线多模态理解与实时音视频交互能力。该模型采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由 LLM 直接处理输入并生成文本与语音token,再通过轻量级音频解码器重建为自然语音波形,实现低延迟的实时交互。

所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为6亿,延续了 LongCat-Flash 系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。

LongCat-Flash-Omni 模型架构如下:

Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github:https://github.com/meituan-longcat/LongCat-Flash-Omni

原文链接:https://www.oschina.net/news/381257
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章