字节跳动联合清华大学开源统一多模态框架：HuMo-低调大师

字节跳动联合清华大学开源统一多模态框架：HuMo

2025-09-12 174

字节跳动智能创作团队联合清华大学共同开源了名为 HuMo 的统一 HCVG（Human-Centric Video Generation）框架。

论文地址: https://arxiv.org/abs/2509.08519

Human-Centric Video Generation，即人体视频生成框架，支持文本、图像、音频三种模态协同驱动。

HuMo（意指 Human-Modal）通过构建高质量数据集和设计创新的渐进式训练范式，成功实现了对多模态输入的协同控制，在各项子任务上超越了现有的专业化方法，可输出 480P 与 720P 分辨率、最长 97 帧、25FPS 的精细可控人物视频。

HuMo 框架的核心在于其创新的数据处理流程、渐进式多模态训练范式以及灵活的推理策略。

项目地址:
https://phantom-video.github.io/HuMo
https://github.com/phantom-video/humo

微信关注我们

原文链接：https://www.oschina.net/news/371781

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

输出中国方案引领智慧出行东软亮相 IAA MOBILITY 2025

近日，东软集团亮相2025年德国国际汽车及智慧出行博览会（IAA MOBILITY 2025），分享对中国消费者体验创新的洞察，并全面展示东软面向全球市场推出的智能汽车互联领域产品、解决方案和服务，以期为AI时代的用户带来卓越体验，进一步推动未来出行方式的变革。展会期间，东软集中呈现了多项前沿技术成果与成熟的专业能力。其中，东软OneCoreGo®全球车载智能出行解决方案6.0，通过构建“One Map（全球导航产品族群）、One Sight（AR For Car）、One Store（全球车载生态）、One Pay（车载支付中心）、One Mate（AI交互中心）”五大核心能力体系，为全球汽车用户打造全方位、智能化出行体验。NAGIC座舱软件平台以敏捷开发、成本优化、创新的软件能力与灵活的商业模式，全面助力车企加速实现智能化转型。此外，东软还提供覆盖车辆开发与服务全生命周期的软件产品及解决方案，全面展现了东软在智能汽车互联领域的技术深度和系统能力。在众多创新展品中，东软One Sight车载增强现实软件系统（AR For Car）成为全场焦点。这款产品采用多种AR核心算法和自研高...

2025-09-12

172

百度发布了 OCR 模型 PP-OCRv5，旨在解决通用视觉语言模型（VLMs）在 OCR 领域的局限性。PP-OCRv5 作为 PP-OCR 新一代文字识别解决方案，该方案聚焦于多场景、多文字类型的文字识别。在文字类型方面，PP-OCRv5 支持简体中文、中文拼音、繁体中文、英文、日文 5 大主流文字类型，在场景方面，PP-OCRv5 升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上，PP-OCRv5 较 PP-OCRv4 端到端提升 13 个百分点。 PP-OCRv5 采用模块化两阶段流程，专为高速、精确的文本检测和识别设计。该模型更小、更高效，尤其适合资源受限硬件。 PP-OCRv5 模型架构为两阶段流水线，包含图像预处理、文本检测、文本行方向分类和文本识别四个核心组件。该模型已在 Hugging Face 上线，用户可通过在线 Demo 测试其在处理多语言文档、手写文本和低质量扫描件时的实时精确结果。开发者可从 Hugging Face Models 下载模型，并通过安装 PaddlePaddle 和 PaddleOCR 库在本地部...

2025-09-12

190

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。