阿里开源通义万相“首尾帧生视频”14B 模型
阿里通义万相「首尾帧生视频模型」宣布开源,该模型参数量为14B,是业界首个百亿参数规模的开源首尾帧视频模型。可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的720p高清视频。公告称,此次升级将能满足用户更可控、更定制化的视频生成需求。
基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换;在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。
在推理阶段,为了在有限内存资源的条件下支持高清视频推理,万相首尾帧模型分别采用了模型切分策略以及序列并行策略,在确保推理效果无损的前提下,显著缩短了推理时间。
基于该模型,用户可完成更复杂、更个性化的视频生成任务,可以实现同一主体的特效变化、不同场景的运镜控制等视频生成。例如,上传相同位置不同时间段的两张外景图片,输入一段提示词,通义万相首尾帧生成模型即可生成一段四季交替变化或者昼夜变化的延时摄影效果视频;上传两张不同画面的场景,还可通过旋转、摇镜、推进等运镜控制衔接画面,在保证视频和预设图片一致性前提下,同时让视频拥有更丰富的镜头。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
北京市人工智能产业投资基金追加投资智谱(Z.ai)2 亿元
《北京日报》报道称,北京市人工智能产业投资基金追加投资北京智谱华章科技股份有限公司(以下简称智谱)2 亿人民币。 北京市人工智能产业投资基金表示,智谱是基金成立以来投资的第一家 AI 大模型企业,也是目前成长最快的企业。智谱在包括文本、推理、语音、图像、视频、代码等在内的全面模型能力上有深厚积累。此外,商业化布局完善,拥有超过百万规模的开发者社区和企业用户。 北京市人工智能产业投资基金表示:希望通过这次投资,进一步推动智谱在开源模型和算法创新方面的能力建设。 4 月 15 日,智谱开源 32B/9B 系列 GLM 模型,包括了基座、推理和沉思模型,所有模型采用宽松的 MIT 许可协议,免费商用、分发,引发业内关注。与此同时,智谱启用全新域名 Z.ai,目前该平台整合了 32B 基座、推理、沉思三类 GLM 模型,后续将作为智谱最新模型的交互体验入口。 智谱此前在开源方面已经做了很多贡献,2023 年率先开源国内第一个 Chat 大模型 ChatGLM-6B,短时间内就吸引超过千万次下载。智谱持续为开源社区和大模型生态发展注入源源不断的活力。 北京市人工智能产业投资基金自 2023年 1...
- 下一篇
10 亿上海具身智能基金正式成立
由上海国有资本投资有限公司与浦东新区联合发起的上海具身智创创业投资合伙企业(有限合伙)(以下简称“上海具身智能基金”)已于近日完成工商注册,目标规模10亿元人民币,首关5.6亿元人民币。 上海具身智能基金由上海国资母基金、浦东创投、张江集团共同担任基石出资人,国投孚腾担任基金管理人,浦东创投担任执行事务合伙人,基金将依托张江机器人谷,聚焦具身智能本体、核心零部件、泛机器人等产业链关键环节,加速技术研发与产业转化,助力上海构建国际领先的具身智能产业集群。 该基金将重点投向三大领域: 具身智能本体:支持人形机器人、工业协作机器人等智能体的研发与场景落地 核心零部件:突破高精度传感器、仿生驱动装置、边缘计算芯片等“卡脖子”技术 泛机器人应用:拓展医疗康复、智慧物流、特种作业等垂直场景的智能化解决方案
相关文章
文章评论
共有0条评论来说两句吧...