Bilibili 开源动漫视频生成模型 AniSora V3 版-低调大师

Bilibili 开源动漫视频生成模型 AniSora V3 版

2025-07-03 178

Bilibili（B站）宣布其开源动漫视频生成模型AniSora迎来重大更新，正式发布AniSora V3。作为Index-AniSora项目的一部分，V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及VTuber内容创作者提供了更强大的工具。

AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型，结合强化学习与人类反馈（RLHF）框架，显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头，包括番剧片段、国创动画、漫画视频改编、VTuber内容）等。

核心升级包括：

时空掩码模块（Spatiotemporal Mask Module）优化：V3版本增强了时空控制能力，支持更复杂的动画任务，如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如，提示“五位女孩在镜头放大时起舞，左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画，镜头与角色动作同步自然。
数据集扩展：V3继续依托超过1000万高质量动漫视频片段（从100万原始视频中提取）进行训练，新增数据清洗流水线，确保生成内容的风格一致性和细节丰富度。
硬件优化：V3新增对华为Ascend910B NPU的原生支持，完全基于国产芯片训练，推理速度提升约20%，生成4秒高清视频仅需2-3分钟。
多任务学习：V3强化了多任务处理能力，支持从单帧图像生成视频、关键帧插值到唇部同步等功能，特别适合漫画改编和VTuber内容创作。

在最新基准测试中，AniSora V3在VBench和双盲主观测试中，角色一致性和动作流畅度均达到业界顶尖水平（SOTA），尤其在复杂动作(如违反物理规律的夸张动漫动作)上表现突出。

Bilibili强调，AniSora是“对动漫世界的开源礼物”，鼓励社区协作优化模型。用户需填写申请表并发送至指定邮箱（如yangsiqian@bilibili.com）以获取V2.0权重和完整数据集访问权限。

V3还引入了首个针对动漫视频生成的RLHF框架，通过AnimeReward和GAPO等工具对模型进行微调，确保输出更符合人类审美和动漫风格需求。社区开发者已开始基于V3开发定制化插件，例如增强特定动漫风格（如吉卜力风）的生成效果。

AniSora V3支持多种动漫风格，包括日本动漫、国产原创动画、漫画改编、VTuber内容及恶搞动画（鬼畜动画），覆盖90%的动漫视频应用场景。具体应用包括：

单图转视频：用户上传一张高质量动漫图像，配合文本提示（如“角色在向前行驶的车中挥手，头发随风摆动”），即可生成动态视频，保持角色细节和风格一致。
漫画改编：从漫画帧生成带唇部同步和动作的动画，适合快速制作预告片或短篇动画。
VTuber与游戏：支持实时生成角色动画，助力独立创作者和游戏开发者快速测试角色动作。
高分辨率输出：生成视频支持高达1080p，确保在社交媒体、流媒体平台上的专业呈现。

AIbase测试显示，V3在生成复杂场景（如多角色交互、动态背景）时，相比V2减少了约15%的伪影问题，生成时间缩短至平均2.5分钟(4秒视频)。

相比OpenAI的Sora或Kling等通用视频生成模型，AniSora V3专注于动漫领域。与字节跳动的EX-4D相比，AniSora V3更专注于2D/2.5D动漫风格，而非4D多视角生成。

微信关注我们

原文链接：https://www.oschina.net/news/358565

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking

智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型，并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。同时，公司推出了全新生态平台“Agent应用空间”，并启动“Agents开拓者计划”，投入数亿资金扶持AI Agents创业团队。为庆祝模型发布，智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens，同时，该模型可通过API免费使用。此次率先开源的是GLM-4.1V-9B-Thinking，一个9B参数量的多模态模型，对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越，其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。模型具备强大的多模态能力，能够解析长达2小时的视频、进行数学与科学推理、看图编写网页，并具备GUI Agent能力，可识别并操作手机、电脑等屏幕界面元素，完成用户指令。例如，在解析足球比赛时，模型能理解球员位置和战术特点。 GLM-4.1V-Thinkin...

2025-07-03

213

抖音内容技术团队开源了 ContentV，一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上，使用 256 块显卡，在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限，ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。该工作探索了在有限算力条件下训练视频生成模型的可行路径。目前，推理代码与模型权重已对外开放。项目主页：https://contentv.github.io 技术报告：https://arxiv.org/abs/2506.05343 代码仓库：https://github.com/bytedance/ContentV 模型权重：https://huggingface.co/ByteDance/ContentV-8B 核心亮点极简设计 CogVideoX、HunyuanVideo 和 Wan2.1 等一系列优秀的开源工作表明，视频生成的关键并不在于架构上的特殊设计，而在于如何高效利用有限的数据资源，并有效对齐人类偏好。为验证 ContentV 方案的通用性，本次开源的版本在扩散模型部分采用了经典的文生图模型 Stable D...

2025-07-03

185

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。