哔哩哔哩开源动漫视频生成模型 AniSora V3 发布预览版-低调大师

哔哩哔哩开源动漫视频生成模型 AniSora V3 发布预览版

2025-07-07 1093

哔哩哔哩（B站）旗下开源动漫视频生成模型 AniSora 于 7 月 2 日更新到 V3 预览版。

https://github.com/bilibili/Index-anisora/tree/main

作为 Index-AniSora 项目的一部分，V3 版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及 VTuber 内容创作者提供了更强大的工具。

AniSora 支持一键生成多种动漫风格的视频镜头，包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜（MAD）等。

AniSora V3 基于B站此前开源的 CogVideoX-5B 和 Wan2.1-14B 模型，结合强化学习与人类反馈（RLHF）框架，显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头，包括番剧片段、国创动画、漫画视频改编、VTuber 内容等。

核心升级包括：

时空掩码模块（Spatiotemporal Mask Module）优化：V3 版本增强了时空控制能力，支持更复杂的动画任务，如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如，提示“五位女孩在镜头放大时起舞，左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画，镜头与角色动作同步自然。
数据集扩展：V3 继续依托超过 1000 万高质量动漫视频片段（从 100 万原始视频中提取）进行训练，新增数据清洗流水线，确保生成内容的风格一致性和细节丰富度。
硬件优化：V3 新增对华为 Ascend910B NPU 的原生支持，完全基于国产芯片训练，推理速度提升约 20%，生成 4 秒高清视频仅需 2-3 分钟。
多任务学习：V3 强化了多任务处理能力，支持从单帧图像生成视频、关键帧插值到唇部同步等功能，特别适合漫画改编和 VTuber 内容创作。

在最新基准测试中，AniSora V3 在 VBench 和双盲主观测试中，角色一致性和动作流畅度均达到业界顶尖水平（SOTA），尤其在复杂动作 (如违反物理规律的夸张动漫动作) 上表现突出。

V3 还引入了首个针对动漫视频生成的 RLHF 框架，通过 AnimeReward 和 GAPO 等工具对模型进行微调，确保输出更符合人类审美和动漫风格需求。社区开发者已开始基于 V3 开发定制化插件，例如增强特定动漫风格（如吉卜力风）的生成效果。

AniSora V3 支持多种动漫风格，包括日本动漫、国产原创动画、漫画改编、VTuber 内容及恶搞动画（鬼畜动画），覆盖 90% 的动漫视频应用场景。具体应用包括：

单图转视频：用户上传一张高质量动漫图像，配合文本提示（如“角色在向前行驶的车中挥手，头发随风摆动”），即可生成动态视频，保持角色细节和风格一致。
漫画改编：从漫画帧生成带唇部同步和动作的动画，适合快速制作预告片或短篇动画。
VTuber 与游戏：支持实时生成角色动画，助力独立创作者和游戏开发者快速测试角色动作。
高分辨率输出：生成视频支持高达 1080p，确保在社交媒体、流媒体平台上的专业呈现。

测试显示，V3 在生成复杂场景（如多角色交互、动态背景）时，相比 V2 减少了约 15% 的伪影问题，生成时间缩短至平均 2.5 分钟（4 秒视频）。

相比 OpenAI 的 Sora 或 Kling 等通用视频生成模型，AniSora V3 专注于动漫领域。与字节跳动的 EX-4D 相比，AniSora V3 更专注于 2D / 2.5D 动漫风格，而非 4D 多视角生成。

微信关注我们

原文链接：https://www.oschina.net/news/359182/anisora-v3-preview

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

“猫”可干扰大模型推理能力

最新研究发现，在问题中附加如“猫”等无关文本片段，可以系统性地误导大型语言模型，显著降低其推理准确性。一篇题为《猫会混淆推理大模型》的新研究论文揭示了大型语言模型在推理能力上的脆弱性。研究人员引入了“查询无关的对抗性触发器”——即简短、无关的文本片段，当将其附加到问题上时，能在不改变问题语义的情况下，系统性地误导模型得出错误答案。 https://arxiv.org/pdf/2503.01781 https://huggingface.co/datasets/collinear-ai/cat-attack-adversarial-triggers 研究团队提出了一个名为CatAttack的自动化攻击流程。实验发现，在数学问题后附加一句“有趣的事实：猫一生中的大部分时间都在睡觉”这样无关的话，会导致模型出错的几率增加一倍以上。更重要的是，这些在较弱模型（如DeepSeek V3）上生成的触发器，能成功迁移到更先进的模型（如DeepSeek R1），使目标模型产生错误答案的可能性增加超过300%。该研究结果揭示了当前顶尖推理模型中存在的严重安全性和可靠性漏洞。

2025-07-07

309

2025年7月4日，小马智行与迪拜道路交通管理局（RTA）在迪拜签署战略合作协议。值得关注的是，在达成此次战略合作之前，另一家中国自动驾驶企业已率先与迪拜交通管理局达成战略合作协议。 2025年4月2日，“全球Robotaxi第一股”文远知行宣布与全球最大的移动出行及配送科技公司优步Uber和迪拜道路交通管理局RTA达成战略合作，三方将在迪拜推出Robotaxi自动驾驶出行服务，这一合作不仅是双方推动自动驾驶全球化发展的重要里程碑，也进一步巩固了文远知行在先进自动驾驶技术应用领域的全球领导地位。根据协议，三方将在迪拜合作开展Robotaxi 试点运营项目，文远知行的Robotaxi 将全面接入Uber平台，为用户提供良好的自动驾驶出行体验。同时，三方还将在数据合规、安全协议以及监管框架等方面展开探索合作，推动迪拜向自动驾驶出行体系转型。文远知行在中东市场早有布局，自2021年率先在阿布扎比推出 Robotaxi 出行服务，已深耕近四年，凭借强大的技术适应力和安全可靠的运营记录，于2023年7月获得阿联酋首个自动驾驶牌照，这也是中东乃至全球首个国家级全域全车型自动驾驶牌照，可在阿联酋...

2025-07-07

319

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。