智源研究院开源 Video-XL-2:轻量级超长视频理解模型
近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。
相较于上一版本的Video-XL,该模型在多个维度全面优化了多模态大模型对长视频内容的理解能力:
- 效果更佳:Video-XL-2 在长视频理解任务中表现出色,在 MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先水平。
- 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。
- 速度更快:Video-XL-2 大幅提升了处理效率,编码 2048 帧视频仅需 12 秒,显著加速长视频理解流程。
Video-XL-2 的模型架构示意图:
在模型架构设计上,Video-XL-2 主要由三个核心组件构成:视觉编码器(Visual Encoder)、动态 Token 合成模块(Dynamic Token Synthesis, DTS)以及大语言模型(LLM)。
目前,Video-XL-2 的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
“鸿蒙创想·创新场景共建挑战赛”开启,等你来战!
科技领域,生态竞争愈发激烈。HarmonyOS凭借全场景战略,推动原生应用全面普及,构建更安全、更智能、更开放的操作系统生态,已成为国产操作系统生态的核心力量之一。 2025 年,开源中国携手 HarmonyOS诚邀各路开发者一起共建HarmonyOS开发者场景技术能力,并推出鸿蒙创想·创新场景共建挑战赛。希望通过本次大赛,进一步加速 HarmonyOS应用开发进程,推动HarmonyOS开发者场景技术能力生态,激发各路开发 OG 的无限创造力和创新力。 让我们以代码为笔,共筑HarmonyOS开发者场景技术能力的盛景繁花! 鸿蒙创想 · 创新场景共建挑战赛 活动时间: 2025.5.30-2025.6.30 报名链接:https://qaxb95n3g50.feishu.cn/share/base/form/shrcnaQjWtDMJvkU62QaXkuZyld 核心命题 基于HarmonyOS最新版本能力共建三方开源代码库,可提交开源代码、SDK接口、API接口、插件、边缘工具集成、智能工具以及场景解决方案等。 提交方向参考 1、多设备适配:基于HarmonyOS以及 ArkUI/...
- 下一篇
阶跃星辰 C 端产品“冒泡鸭”停运,业务重心转向终端 Agent
根据《智能涌现》的独家报道,大模型“六小虎”之一的阶跃星辰近半年在其 C 端应用布局上进行了一系列调整: 2024 年 12 月,角色扮演类 Agent 产品「冒泡鸭」停止大范围投入,团队合并至对话产品「跃问」(现更名为「阶跃 AI」),目前仅留部分员工运维。 针对上述信息,阶跃星辰回复称,早期团队基于当时的模型能力进行了一些产品探索;2025 年,随着多模态和推理能力的成熟,团队对产品进行收敛,聚焦 Agent 方向。 公司方面还表示,「跃问」改名为「阶跃 AI」,意味着它从 Chat 类的产品到 Agent 能力的转变。 而据阶跃星辰员工透露,经过一年以来的探索,团队现在在产品布局上学到的深刻一课是:不要在已有头部玩家的领域,参与竞争。 报道指出,2025 年以来,阶跃星辰的战略,也是将资源从短板,集中到长板业务上:重心从 C 端,转移到模型研发和 ToB/G 上。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6