通义大模型开源发布 3D 数字人大模型
通义大模型开源发布 LHM 可驱动 3D数字人生成模型,可单图秒级生成超写实3D数字人,基于生成的3D数字人搭建了完整的实时交互对话工程链路,包括LLM、ASR、TTS和数字人模块,即输入一张图片、即可与这张图片所生成的数字人化身进行低延迟的实时对话,应用于客服、教育、陪伴等场景。 LHM是一个单视角输入、端到端的Transformer模型,依赖于人体先验模型SMPL-X进行驱动,最终输出一个可驱动的高斯3D人体模型。你可以把LHM看作一个“魔法工具”,它能帮你用一张照片快速生成一个可以在电脑里动起来的3D数字人。 根据介绍,项目团队通过Vision Transformer技术将单张图片拆解为小块,并借助Meta的Mae模型编码身体特征。为获取更精细的人体头部特征,还设计了Head Tokenization方式(借鉴DINOv2网络结构),通过提取多感受的特征信息,并结合MLP映射,捕捉头部的整体结构细节。 基于人体先验模型SMPL-X,基于Transformer回归出五个关键高斯特征:坐标偏移、透视程度、表面颜色值、高斯大小和旋转向量。这些特征定义了3D模型的形状、颜色和动态表现能力...