苹果联合复旦大学提出端侧视频大语言模型框架 StreamBridge-低调大师

苹果联合复旦大学提出端侧视频大语言模型框架 StreamBridge

2025-05-13 327

苹果公司联合复旦大学，推出 StreamBridge 端侧视频大语言模型（Video-LLMs）框架，助力 AI 理解直播流视频。该框架通过内存缓冲区和轮次衰减压缩策略，支持长上下文交互。

该框架还引入了一个轻量化的独立激活模型，无缝集成现有视频大语言模型，实现主动响应功能。研究团队还推出了 Stream-IT 数据集，包含约 60 万个样本，融合了视频与文本序列，支持多样化的指令格式，旨在提升流式视频理解能力。

StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示，Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04，超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。

论文简介如下：

视频大语言模型（Video - LLMs）通常一次性处理整个预录制视频。然而，新兴应用，如机器人技术和自动驾驶，需要在线对视觉信息进行因果感知和解释。这种根本不匹配凸显了当前视频大语言模型（Video - LLMs）的一个关键局限性，因为它们本质上不具备在及时理解和响应至关重要的流式场景中运行的能力。

我们提出了流桥（StreamBridge），这是一个简单而有效的框架，可将离线视频大语言模型（Video - LLMs）无缝转换为具备流式处理能力的模型。它解决了将现有模型应用于在线场景时的两个基本挑战：（1）多轮实时理解能力有限；（2）缺乏主动响应机制。

具体而言，流桥（StreamBridge）包含：

（1）一个结合了轮次衰减压缩策略的内存缓冲区，支持长上下文多轮交互；

（2）一个解耦的轻量级激活模型，可轻松集成到现有的视频大语言模型（Video - LLMs）中，实现持续的主动响应。

为了进一步支持流桥（StreamBridge），我们构建了流信息技术（Stream - IT），这是一个专门用于流式视频理解的大规模数据集，具有交错的视频文本序列和多样化的指令格式。

大量实验表明，流桥（StreamBridge）显著提高了离线视频大语言模型（Video - LLMs）在各种任务中的流式理解能力，甚至优于GPT - 4o和Gemini 1.5 Pro等专有模型。同时，它在标准视频理解基准测试中也取得了有竞争力或更优的性能。

论文链接：https://arxiv.org/pdf/2505.05467

微信关注我们

原文链接：https://www.oschina.net/news/349634

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

curl 创始人被 AI 垃圾“逼疯了”

curl 创始人 Daniel Stenberg 在领英发帖称，已经受够了由 AI 生成的大量“垃圾”虚假漏洞报告，因此近期引入额外复选框，用以过滤此类平白浪费维护人员时间的低效提交内容。 Daniel Stenberg 认为这是针对该项目的 DDoS 攻击，他称至今没有看到一份 AI 帮助下完成的漏洞报告是有效的，而且垃圾报告的比例一直在持续上升。 Stenberg 回复一位关注者称，“几年前并不存在这样的报告，但如今其比例似乎在不断上升。尽管还没有彻底吞没我们，但趋势已经相当严峻。” 5 月 4 日的一份安全报告令 Stenberg 倍感崩溃，因为报告引用了不存在的函数，而且不适用于当前版本。甚至还有安全报告包含了 AI 提示命令。Stenberg 希望管理漏洞报告的平台 HackerOne 能使用更多工具打击 AI 生成的漏洞报告，他计划封禁递交此类报告的用户。 https://hackerone.com/reports/3125832?trk=public_post_comment-text 阅读更多：大模型 LLM 对 curl 项目的安全工作造成了困扰

2025-05-13

275

彭博社曝料称，苹果 iOS 19 系统在带来全新设计、引入更多 AI 功能之外，还力求减少系统故障（glitch）。报道提到，iOS 最近的大版本常因 Bug 频发和功能失灵饱受批评；而在 iOS 19 系统上，苹果公司将稳定性放在优先位置——“苹果对质量的重视有望结出硕果，让新系统更可靠”，希望扭转用户的不满情绪。 9to5Mac 评论称，去年 iOS 18 及其后续更新已推出大量新功能，今年即便有设计方面改进，苹果在其他新功能上的规划可能相对保守。对许多用户而言，界面设计的改变可能比日历（Calendar）或笔记（Notes）应用的新功能更具吸引力。

2025-05-13

261

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。