字节跳动发布 Vidi2:120 亿参数,让视频编辑彻底自动化
字节跳动发布了其最新的多模态大语言模型 Vidi2,一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材,理解其中的故事脉络,并根据简单提示生成完整的TikTok短视频或电影片段,被视为对现有视频编辑行业的重大颠覆。
Vidi2的关键在于其视频理解能力。新模型新增了精细的时空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询,Vidi2不仅能找到对应的时间段,还能在这些时间范围内准确标记出具体物体的位置。
在技术细节上:
-
时空定位:模型返回“管道”(时间索引边界框),以一秒粒度跟踪指定对象和人物,直接支持编辑,例如在人群中跟踪特定人物。
-
技术架构:Vidi2升级使用Gemma-3作为主干网络,并辅以重新设计的自适应标记压缩技术,确保在处理长视频时保持效率而不丢失关键细节。
在用于开放式时间检索的 VUE-TR-V2基准上,Vidi2 总体 IoU 达到48.75,尤其在超长视频(超过1小时)上的表现比商业模型领先17.5个百分点。在定位任务(VUE-STG)上,模型也取得了vIoU32.57和tIoU53.19的最佳性能。
字节跳动基于 Vidi2 已开发出多个实用的自动化编辑工具,包括:高光提取、故事感知剪切、内容感知重构图和多视角切换,且这些功能都可以在消费级硬件上运行。
-
TikTok应用:相关技术已应用于TikTok的Smart Split功能,能够自动剪辑、重构图、添加字幕,并将长视频转录成适合TikTok的短片段。
-
AI Outline:该工具能将简单提示或热门话题转化为结构化的视频标题、开头和大纲。
目前 Vidi2仍处于研究阶段,官方表示 Demo 即将发布。
