腾讯混元 3D 再升级,推出业界首个美术级 3D 生成大模型
腾讯混元3D宣布再次升级,带来了业界首个美术级3D生成大模型Hunyuan3D-PolyGen。根据介绍,该模型主要是为解决3D资产生成中布线质量和复杂物体建模的难题,提升美术师建模效率。
为实现从“可看”到“可用”的3D生成,Hunyuan3D-PolyGen采用自回归网格生成框架,通过显式、离散的顶点与面片建模,进行空间推理,生成高质量、符合美术规范的3D模型。其核心框架包括以下三个步骤:
- 网格序列化:将网格的顶点和面片转化为Token序列,用以表示Mesh结构。
- 自回归建模:以点云作为输入Prompt,利用自回归模型生成Mesh的Token序列。
- 序列解码:将生成的Token序列反向解码为顶点与面片,重建3D网格。
现有的mesh自回归方法,表达一个面通常需要9个token(一个面片三个顶点,每个顶点三个坐标),mesh表达冗余程度高,在给定有限的上下文窗口下,仅可对低面片(2k面以下)的简单模型进行建模,为了提升可建模面数,实现复杂mesh建模,混元团队自研了高压缩率mesh表征BPT(Blocked and Patchified Tokenization),设计block索引和patch压缩,使表达相同 mesh 所需的token序列更短,如下图所示:
1) block索引:将网格空间分成多个block,顶点的表征由(x,y,z)空间坐标转化为(block, offset)索引坐标,token数量可降低33%;
2) patch压缩:将相邻面片组成patch(一个中心顶点和边缘顶点),减少相邻面片之间共用顶点的冗余,结合共享block等技巧,token数量可进一步降低约41%。
利用以上压缩算法BPT,表征mesh的token数量可压缩74%,即平均用2.3个token即可表征一个面,极大提升了模型的可建模面数,由下图可看出,对比现有mesh自回归方法,可建模的模型更加复杂(可达2w+面),细节更多。
此外,其还研发了mesh自回归的强化学习后训练框架,在预训练模型的基础上进行后训练,设计稳定生成和美术规范奖励来引导模型生成更好的结果。通过强化学习,可以提升模型生成“好结果”的概率,降低模型生成“差结果”的概率,从而提升了模型生成的稳定性。
更多详情可查看官方公告。



