LoVR:面向长视频的多模态检索基准
摘要: 近日,北京大学与OceanBase联合提出的长视频多模态检索基准LoVR被WWW录用。LoVR是一个面向真实长视频的多模态检索基准,既支持全视频检索也支持片段级检索,并配套一条可规模化的高质量标注流水。LoVR系统性刻画了长视频检索的真实难点,提供了可扩展的高质量多模态数据构建范式,为未来长程语义建模与多粒度检索方法提供统一评测平台。 研究背景与挑战 随着长视频平台和知识型视频内容的快速增长,视频已经从“短片娱乐载体”演变为“结构化知识与复杂事件的长期记录”。无论是教学课程、会议记录、纪录片,还是操作演示与技术讲解,越来越多关键信息分布在数分钟甚至数小时的连续视频中。用户的真实需求,也从“找一个相关视频”升级为“在长视频中精准定位到相关内容”。 然而,现有多模态检索研究仍主要基于短视频或独立片段构建评测环境。这种设置在语义复杂度、时间跨度以及上下文干扰程度上,都难以模拟真实长视频场景。更关键的是,在长视频内部,不同片段之间往往高度相似,语义边界模糊,模型需要具备更强的时间建模能力与细粒度语义区分能力,才能避免“找对主题、但定位错误”的问题。 与此同时,构建高质量的长视频数据本身...