您现在的位置是:首页 > 文章详情

智谱开源清影模型 CogVideoX

日期:2024-08-07点击:54

7 月 26 日,智谱发布 AI 生视频「清影」并上线智谱清言APP,30秒将任意文图生成视频。现在,智谱宣布正式开源清影模型 CogVideoX。

CogVideoX开源模型包含多个不同尺寸大小的模型,此次开源的是 CogVideoX-2B,它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。

CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。“我们为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。”

模型下载:https://huggingface.co/THUDM/CogVideoX-2b

性能

为了评估文本到视频生成的质量,智谱方面使用了VBench中的多个指标,如人类动作、场景、动态程度等。还使用了两个额外的视频评估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,这些工具专注于视频的动态特性。如下表所示:

原文链接:https://www.oschina.net/news/305771
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章