字节跳动发布 Vidi2：120 亿参数，让视频编辑彻底自动化-低调大师

字节跳动发布 Vidi2：120 亿参数，让视频编辑彻底自动化

2025-12-01 36

字节跳动发布了其最新的多模态大语言模型 Vidi2，一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材，理解其中的故事脉络，并根据简单提示生成完整的TikTok短视频或电影片段，被视为对现有视频编辑行业的重大颠覆。

Vidi2的关键在于其视频理解能力。新模型新增了精细的时空定位（STG）功能，能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询，Vidi2不仅能找到对应的时间段，还能在这些时间范围内准确标记出具体物体的位置。

在技术细节上：

时空定位：模型返回“管道”（时间索引边界框），以一秒粒度跟踪指定对象和人物，直接支持编辑，例如在人群中跟踪特定人物。
技术架构：Vidi2升级使用Gemma-3作为主干网络，并辅以重新设计的自适应标记压缩技术，确保在处理长视频时保持效率而不丢失关键细节。

在用于开放式时间检索的 VUE-TR-V2基准上，Vidi2 总体 IoU 达到48.75，尤其在超长视频（超过1小时）上的表现比商业模型领先17.5个百分点。在定位任务（VUE-STG）上，模型也取得了vIoU32.57和tIoU53.19的最佳性能。

字节跳动基于 Vidi2 已开发出多个实用的自动化编辑工具，包括：高光提取、故事感知剪切、内容感知重构图和多视角切换，且这些功能都可以在消费级硬件上运行。

TikTok应用：相关技术已应用于TikTok的Smart Split功能，能够自动剪辑、重构图、添加字幕，并将长视频转录成适合TikTok的短片段。
AI Outline：该工具能将简单提示或热门话题转化为结构化的视频标题、开头和大纲。

目前 Vidi2仍处于研究阶段，官方表示 Demo 即将发布。

微信关注我们

原文链接：https://www.oschina.net/news/386829

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

上海交大增设全球首个“具身智能”本科专业

上海交通大学近期发布公告，宣布即日起拟增设具身智能本科专业，成为全球高校中首个计划独立设置该专业的院校。根据公告内容，上海交通大学将在 2025 年度增设具身智能本科专业。该专业将隶属于人工智能学院计算机类，授予工学学位，修读年限为四年。预计年度招生人数 30 人，其中升学人数 25 人，占比约 83%。预计就业人数 5 人，华为联合培养 2 人，国家地方共建人形机器人创新中心 3 人。该专业将融合人工智能、机械动力、计算机科学与技术等多学科前沿知识，旨在培养跨“感知-决策-控制-本体设计”的复合型创新人才，填补现有教育体系相关人才缺口。

2025-12-01

32

一、项目概览 Dragonboat 是纯 Go 实现的（multi-group）Raft 库。为应用屏蔽 Raft 复杂性，提供易于使用的 NodeHost 和状态机接口。该库（自称）有如下特点：高吞吐、流水线化、批处理；提供了内存/磁盘状态机多种实现；提供了 ReadIndex、成员变更、Leader转移等管理端API；默认使用 Pebble 作为存储后端。本次代码串讲以V3的稳定版本为基础，不包括GitHub上v4版本内容。二、整体架构三、LogDB 统一存储 LogDB 模块是 Dragonboat 的核心持久化存储层，虽然模块名字有Log，但是它囊括了所有和存储相关的API，负责管理 Raft 协议的所有持久化数据，包括： Raft状态 (RaftState) Raft内部状态变更的集合结构包括但不限于： ClusterID/NodeID：节点ID RaftState： Raft任期、投票情况、commit进度 EntriesToSave：Raft提案日志数据 Snapshot：快照元数据(包括快照文件路径，快照大小，快照对应的提案Index，快照对应的R...

2025-12-01

38

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。