字节跳动联合清华大学开源统一多模态框架:HuMo
字节跳动智能创作团队联合清华大学共同开源了名为 HuMo 的统一 HCVG(Human-Centric Video Generation)框架。
论文地址: https://arxiv.org/abs/2509.08519
Human-Centric Video Generation,即人体视频生成框架,支持文本、图像、音频三种模态协同驱动。
HuMo(意指 Human-Modal)通过构建高质量数据集和设计创新的渐进式训练范式,成功实现了对多模态输入的协同控制,在各项子任务上超越了现有的专业化方法,可输出 480P 与 720P 分辨率、最长 97 帧、25FPS 的精细可控人物视频。
HuMo 框架的核心在于其创新的数据处理流程、渐进式多模态训练范式以及灵活的推理策略。
项目地址:
https://phantom-video.github.io/HuMo
https://github.com/phantom-video/humo

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
输出中国方案 引领智慧出行 东软亮相 IAA MOBILITY 2025
近日,东软集团亮相2025年德国国际汽车及智慧出行博览会(IAA MOBILITY 2025),分享对中国消费者体验创新的洞察,并全面展示东软面向全球市场推出的智能汽车互联领域产品、解决方案和服务,以期为AI时代的用户带来卓越体验,进一步推动未来出行方式的变革。 展会期间,东软集中呈现了多项前沿技术成果与成熟的专业能力。其中,东软OneCoreGo®全球车载智能出行解决方案6.0,通过构建“One Map(全球导航产品族群)、One Sight(AR For Car)、One Store(全球车载生态)、One Pay(车载支付中心)、One Mate(AI交互中心)”五大核心能力体系,为全球汽车用户打造全方位、智能化出行体验。NAGIC座舱软件平台以敏捷开发、成本优化、创新的软件能力与灵活的商业模式,全面助力车企加速实现智能化转型。此外,东软还提供覆盖车辆开发与服务全生命周期的软件产品及解决方案,全面展现了东软在智能汽车互联领域的技术深度和系统能力。 在众多创新展品中,东软One Sight车载增强现实软件系统(AR For Car)成为全场焦点。这款产品采用多种AR核心算法和自研高...
-
下一篇
百度发布新一代文字识别解决方案:PP-OCRv5
百度发布了 OCR 模型 PP-OCRv5,旨在解决通用视觉语言模型(VLMs)在 OCR 领域的局限性。PP-OCRv5 作为 PP-OCR 新一代文字识别解决方案,该方案聚焦于多场景、多文字类型的文字识别。 在文字类型方面,PP-OCRv5 支持简体中文、中文拼音、繁体中文、英文、日文 5 大主流文字类型,在场景方面,PP-OCRv5 升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上,PP-OCRv5 较 PP-OCRv4 端到端提升 13 个百分点。 PP-OCRv5 采用模块化两阶段流程,专为高速、精确的文本检测和识别设计。该模型更小、更高效,尤其适合资源受限硬件。 PP-OCRv5 模型架构为两阶段流水线,包含图像预处理、文本检测、文本行方向分类和文本识别四个核心组件。 该模型已在 Hugging Face 上线,用户可通过在线 Demo 测试其在处理多语言文档、手写文本和低质量扫描件时的实时精确结果。开发者可从 Hugging Face Models 下载模型,并通过安装 PaddlePaddle 和 PaddleOCR 库在本地部...
相关文章
文章评论
共有0条评论来说两句吧...