三维人脸建模和驱动技术,让数字人快速“活”起来
摘要:本文剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。
本文分享自华为云社区《三维人脸建模和驱动技术,让数字人快速“活”起来》,作者: 华为云社区精选 。
虚拟数字人一直是业界的热点研究问题,广泛应用在营销、直播、AR、VR等场景中。而传统的数字人制作流程非常依赖于美术人员,制作周期长、成本高、生产效率低。本次分享主要介绍华为云数字内容生产线MetaStudio中的数字人制作管线背后的一些关键技术,利用计算机视觉和图形学等技术,来提升数字人模型制作和动画制作的效率,具体包括高精度三维人脸重建、个性化人脸自动绑定、实时面部表情捕捉等技术,最后介绍一下基于隐式表示的数字人建模和驱动相关前沿技术和应用前景。
本文将剖析MetaStudio中数字人制作管线背后的一些关键技术,让开发者快速了解当前平台提供的核心能力。
什么是数字人
美国作家尼尔·斯蒂芬森在1992年出版的科幻小说《雪崩》中创造了两个概念:元宇宙(Metaverse)和虚拟分身(Avatar)。“虚拟分身”在中国发展至今拥有更广泛的称呼“虚拟数字人”,被视为未来人们进入“元宇宙”的入口。
数字人的特征:
拥有人的外观,具有特定的相貌、性别和性格等人物特性
拥有人的行为,具有用语言、面部表情和肢体动作表达的能力
拥有人的思想,具有识别外界环境、并能与人交流互动的能力
数字人广泛应用在影视制作、虚拟直播、增强现实AR、虚拟现实VR、虚拟讲解、消费级应用、视频编辑等领域。
传统高精度数字人制作流程包括:角色建模和材质贴图制作、骨骼绑定和表情基制作、驱动(手K/面捕/动捕)、渲染等步骤。然而却有着无法避免的缺点:强依赖美术人员、周期长、成本高、缺少制作标准、动画制作复杂。我们希望基于计算机图形学和计算机视觉技术,提升制作效率,降低制作成本。
什么是华为云数字内容生产线MetaStudio:
华为云数字内容生产线 MetaStudio,连接开发者体系、资产体系和应用体系,将资产和算法能力沉淀在平台上,面向各类伙伴提供一系列数字人的底层服务能力,让伙伴能更方便,更快捷的造人、用人。基于MetaStudio的多种类的建模服务,多种类型的驱动服务,以及云端渲染能力,开发者伙伴可以做出面向千行百业的各类型应用,及多种多样的数字内容。
MetaStudio为降低数字人制作门槛,提供了几个不同的方案,包括单照片风格化数字人和多照片写实数字人建模。
对于风格化数字人,是基于用户输入的照片,进行面部的特征点识别,并针对基础模型进行几何形变。另外基于人脸不同部位的特征点,会匹配基础模型的不同位置,如头发,眉毛等区域,进行不同的处理。如脸型的特征识别后,会对基础模型进行几何形变。对于素材部分,如眉毛,头发等,基于特征完成素材的匹配选择,并将形变网格与素材进行组合,完成最终的风格化数字人模型创建。
超写实数字人建模服务是提供一套基于多照片的输入完成写实数字人建模,先基于多照片输入构建稠密点云,将点云转为基础头部网格,并基于系统内置的基础模型对原始网格进行重拓扑,补齐空洞,去除噪点。基于交叉偏振消除反光,输出皮肤颜色贴图,平行偏振增强高光,输出高光/粗糙度贴图,多视角渐变梯度照明,输出法线贴图;同时配合系统内置了大量写实材质复用。
视频动捕技术是指从视频中估计人体三维姿态,但是肢体遮挡、体型、衣着、肤色、背景、光照等因素进一步增加了该问题的复杂性。利用三维人体关键点识别,基于深度学习网络回归,并通过IK反算,时域约束,后处理滤波等手段来改善单帧图像预测引入的动作不连续和抖动问题,实现高精度视频动作捕捉和表情捕捉。
7个轻量级人脸几何和材质采集的算法流程
计算机图形学是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学,主要研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。
搭建轻量级人脸采集设备,快速采集人脸的几何模型和材质贴图,加速静态人脸资产制作;通过拍摄多个视角图像,基于多视图几何算法,求解人脸的几何信息;通过模拟不同的光源方向和视角方向,求解人脸皮肤的材质信息;通过硬件进行光源和相机的同步,同步误差小于5ms,全部采集时间约100ms;
算法流程包括:
- 多视图几何重建:通过多张有一定视角重叠的RGB照片,来恢复出场景的几何结构信息;MVS算法流程:特征提取、特征匹配、稀疏重建(Structure From Motion)、深度图估计、稠密重建。
- 三维人脸关键点检测:通过多视图几何,从多个视角的二维人脸关键点得到三维人脸关键点坐标;对于耳朵关键点,基于Faster-RCNN 进行耳朵区域检测,利用主动外观模型来拟合耳朵关键点;
- 非刚性配准算法:将标准网格模板模型进行形变,使得模板模型和目标模型进行对齐;
- 基于多视图的镜面反射分离:利用多视图信息进行加权融合,得到人脸面部漫反射分量和镜面反射分量;
- 光度立体视觉:通过采集物体不同光照方向下的图像(三张以上),重建出物体表面的法向量和反射率基于该算法,利用采集得到的不同光照条件下的人脸图像,求解出各个视角下人脸的漫反射率、镜面反射法线和镜面反射率。
- 多视图纹理映射:已知相机位姿,将各个视角下得到的材质信息融合到同一张纹理贴图中;
- 动态人脸重建:在静态人脸重建的基础上,加上时间维度,每帧都是一个同拓扑的三维模型。动态人脸数据的作用是可以还原演员本身的表演,同时基于深度学习的人脸应用需要大量高精度动态人脸数据,而传统采集方案成本高,且需要大量手工交互;算法流程主要包含了非刚性配准、参数化模型约束和光流约束。
从静态到表情,教你三维人脸自动绑定方法
当你制作了静态人脸模型,如何让角色生成表情动画,即脸部如何动起来?
面部动作编码系统(FACS)是一种基于解剖学结构的系统,用于描述面部的肌肉运动。通过对肌肉运动进行编码,来了解面部运动的方式和原因,是一种可靠的面部运动和表情编码分析技术。基于面部动作编码系统原理,可以实现表情基动画。
那么如何去制作关键表情?艺术家通过maya等软件,使用绑定的脸部或者使用“形变编辑器” 和雕刻工具来创建表情,非常耗时!
如果给定角色的中性表情(或一些极端夸张表情),能否通过自动化算法生成该角色的表情基?
给定一个静态人脸几何,自动生成一组表情基,支持不同风格、不同个数的表情基模板。这中间的核心思想就是将一组表情基模板的变形,迁移到目标人脸模型上,利用形变梯度用来刻画形变迁移过程中每个面片的相对运动。
表情基自动绑定方法,可基于Deformation Transfer算法生成表情基初值,再进行迭代优化。如下:1)固定表情基,求解夸张表情下的表情基系数;2)固定系数,优化表情基。
看隐式表示如何轻松搞定数字人建模
传统数字人制作流程复杂,涉及数据扫描、模型清理和制作、模型绑定、模型驱动、物理动画、高品质渲染等步骤,制作周期长,成本高。
而基于神经辐射场等隐式表示,重建结果包含了头发、眼球、牙齿等部分,无需复杂的重建和绑定;生成速度快,制作成本低,数分钟就能得到一个可驱动的高保真数字形象;支持语音驱动、视频驱动等多种驱动方式。
最后
华为云数字内容生产线MetaStudio,依托图形引擎和空间引擎两大媒体引擎,提供3D模型制作、资产管理、内容编辑、物理仿真、云渲染5大平台能力,帮助伙伴和开发者快速构建高质量模型,用于虚拟直播、虚拟视频内容制作等适用于教育课件、电商带货、社交文娱等场景。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
体验昇腾Ascend C 编程语言极简易用的算子开发
摘要:昇腾Ascend C编程语言,让基于昇腾AI的算法创新更加简单。 本文分享自华为云社区《CANN黑科技解密|昇腾Ascend C编程语言 — 极简易用的算子开发体验》,作者:昇腾CANN 。 AI应用的大脑是神经网络,而构成神经网络的基石是一个个算子。为了让开发者的网络在昇腾硬件上高效运行,昇腾异构计算架构CANN(Compute Architecture for Neural Networks)提供了丰富的高性能算子库,包括神经网络库、线性代数计算库等,高性能算子数量达到1400+。有了高性能算子库的支撑,主流神经网络可轻松在昇腾硬件上高效运行。 但随着人工智能的爆发式增长,算法更新层出不穷,固定的高性能算子库可能无法完全满足开发者的多样化创新需求,为了让开发者提出的创新算法能够在硬件上运行起来,自定义算子开发的能力必不可少。 但算子开发是个复杂的工程,需要考虑众多因素,包括语言学习成本、功能逻辑的实现、硬件指令的适配、以及算子运行精度与性能的达标等等。往往一个经验丰富的算法专家开发一个高性能的算子都要耗时数周甚至更长的时间。 算子开发总体流程 为提升算子开发效率,降低算子开发...
- 下一篇
DBA 抓包神器 tshark 测评
想窥探神秘的网络世界的奥秘,tshark 助你一臂之力! 作者:赵黎明 爱可生 MySQL DBA 团队成员,熟悉 Oracle、MySQL 等数据库,擅长数据库性能问题诊断、事务与锁问题的分析等,负责处理客户 MySQL 及我司自研 DMP 平台日常运维中的问题,对开源数据库相关技术非常感兴趣。 本文来源:原创投稿 爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。 常用抓包工具 tshark、tcpdump 和 Wireshark 都是网络抓包工具,它们可以在网络上捕获和分析数据包。 tcpdump 一个开源的,基于命令行的网络抓包工具。它可以捕获和分析网络数据包,运行在几乎所有的 Unix 和 Linux 系统上;可以抓取实时网络通信中的数据包,然后通过过滤器及其他参数,对数据包进行解析和处理。 tshark Wireshark 的命令行版本,也是一个开源的网络分析工具。它可以在命令行下捕获和分析网络流量数据,并使用 Wireshark 的过滤器来提取所需的数据,还支持与各种脚本语言(如 Python 和 Perl)结合使用,以自动化分析过程。 Wire...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS关闭SELinux安全模块
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Linux系统CentOS6、CentOS7手动修改IP地址
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器