苹果开源长视频多模态大语言模型 SlowFast-LLaVA-1.5
苹果研究团队开源了适配版 SlowFast-LLaVA 模型,在长视频分析理解任务上表现超越更大规模模型。
该模型通过双流架构优化视频处理效率,慢流以低帧率捕捉场景细节,快流以高帧率追踪动作变化,解决了传统模型逐帧分析导致的信息冗余与上下文窗口溢出问题。其 10 亿、30 亿和 70 亿参数版本在 LongVideoBench 等长视频基准测试中均创佳绩,10 亿参数模型在 General VideoQA 任务中达 56.6 分,70 亿参数模型在 Long-Form Video Understanding 任务中获 71.5 分,且在图像理解任务如知识推理、OCR 等方面表现出色。
目前模型输入帧长限制为 128 帧,存在可能遗漏关键帧等局限。团队表示将探索内存优化技术提升性能。该模型基于公开数据集训练并开源,为长视频理解提供了新的高效解决方案。
https://github.com/apple/ml-slowfast-llava
https://huggingface.co/papers/2503.18943

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
OpenAI 提议为全体英国人免费提供 ChatGPT Plus,潜在成本高达 20 亿英镑
英国《卫报》近日报道了一项引人注目的提议:OpenAI 首席执行官萨姆・奥尔特曼与英国科技大臣彼得・凯尔讨论,希望为英国民众免费提供 ChatGPT Plus 订阅服务。这项提议的潜在成本高达20亿英镑(约合193.22亿元人民币),但最终未能实现。 根据知情人士的透露,这一构想是在旧金山的一次会议上提出的,旨在寻求 OpenAI 与英国之间更广泛的合作机会。彼得・凯尔曾在今年3月和4月与奥尔特曼共进晚餐,并在7月签署了一份谅解备忘录,探索在英国公共服务中使用人工智能的可能性。该谅解备忘录并非法律约束,可能使 OpenAI 能够接触到部分政府数据,并将其软件应用于教育、国防、安全和司法等领域。 彼得・凯尔在政府内一直积极推动人工智能的应用。今年3月,他曾直接向 ChatGPT 咨询关于政府工作的问题,包括为何英国企业对人工智能的采纳速度缓慢,以及他应该参加哪些播客节目。OpenAI 发言人表示,已有数百万英国用户在每日免费使用 ChatGPT,并强调他们与英国政府的合作旨在推动人工智能的普及,确保更多人能够从中受益。 除了与英国的合作,OpenAI 近期还与多个国家的政府进行了接触。值...
-
下一篇
为何精神控制类 Prompt 远胜普通事务性 Prompt?
研究人员发起了主题"为何精神控制类Prompt远胜普通事务性Prompt"的研究,他们通过大量实验数据直观展示两类Prompt在关键指标上的显著差异。 以下数据基于最新公开文献(IJCAI-2024、ACL-2025、arXIV-2024等)与作者实测,覆盖多个维度评估。 最终得出如下结论: 精神控制类 Prompt ≈ 把 RLHF 阶段学到的"人类情绪映射"重新激活,并叠加稀缺、竞争、权威三重杠杆,从而把 LLM 的生成分布强行压到高 reward 区域——这就是它碾压普通事务性 Prompt 的全部秘密。
相关文章
文章评论
共有0条评论来说两句吧...