苹果开源长视频多模态大语言模型 SlowFast-LLaVA-1.5-低调大师

苹果开源长视频多模态大语言模型 SlowFast-LLaVA-1.5

2025-08-25 210

苹果研究团队开源了适配版 SlowFast-LLaVA 模型，在长视频分析理解任务上表现超越更大规模模型。

该模型通过双流架构优化视频处理效率，慢流以低帧率捕捉场景细节，快流以高帧率追踪动作变化，解决了传统模型逐帧分析导致的信息冗余与上下文窗口溢出问题。其 10 亿、30 亿和 70 亿参数版本在 LongVideoBench 等长视频基准测试中均创佳绩，10 亿参数模型在 General VideoQA 任务中达 56.6 分，70 亿参数模型在 Long-Form Video Understanding 任务中获 71.5 分，且在图像理解任务如知识推理、OCR 等方面表现出色。

目前模型输入帧长限制为 128 帧，存在可能遗漏关键帧等局限。团队表示将探索内存优化技术提升性能。该模型基于公开数据集训练并开源，为长视频理解提供了新的高效解决方案。

https://github.com/apple/ml-slowfast-llava
https://huggingface.co/papers/2503.18943

微信关注我们

原文链接：https://www.oschina.net/news/368273

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 提议为全体英国人免费提供 ChatGPT Plus，潜在成本高达 20 亿英镑

英国《卫报》近日报道了一项引人注目的提议：OpenAI 首席执行官萨姆・奥尔特曼与英国科技大臣彼得・凯尔讨论，希望为英国民众免费提供 ChatGPT Plus 订阅服务。这项提议的潜在成本高达20亿英镑（约合193.22亿元人民币），但最终未能实现。根据知情人士的透露，这一构想是在旧金山的一次会议上提出的，旨在寻求 OpenAI 与英国之间更广泛的合作机会。彼得・凯尔曾在今年3月和4月与奥尔特曼共进晚餐，并在7月签署了一份谅解备忘录，探索在英国公共服务中使用人工智能的可能性。该谅解备忘录并非法律约束，可能使 OpenAI 能够接触到部分政府数据，并将其软件应用于教育、国防、安全和司法等领域。彼得・凯尔在政府内一直积极推动人工智能的应用。今年3月，他曾直接向 ChatGPT 咨询关于政府工作的问题，包括为何英国企业对人工智能的采纳速度缓慢，以及他应该参加哪些播客节目。OpenAI 发言人表示，已有数百万英国用户在每日免费使用 ChatGPT，并强调他们与英国政府的合作旨在推动人工智能的普及，确保更多人能够从中受益。除了与英国的合作，OpenAI 近期还与多个国家的政府进行了接触。值...

2025-08-25

202

研究人员发起了主题"为何精神控制类Prompt远胜普通事务性Prompt"的研究，他们通过大量实验数据直观展示两类Prompt在关键指标上的显著差异。以下数据基于最新公开文献（IJCAI-2024、ACL-2025、arXIV-2024等）与作者实测，覆盖多个维度评估。最终得出如下结论：精神控制类 Prompt ≈ 把 RLHF 阶段学到的"人类情绪映射"重新激活，并叠加稀缺、竞争、权威三重杠杆，从而把 LLM 的生成分布强行压到高 reward 区域——这就是它碾压普通事务性 Prompt 的全部秘密。

2025-08-25

192

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。