阿里达摩院发布开源版“妙鸭”:FaceChain
FaceChain是一款可以用于打造个人数字形象的深度学习模型工具。用户只需提供最低三张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在梯度的界面中使用模型训练和推理能力,也支持资深开发者使用python脚本进行训练推理。
FaceChain是一个组合模型,使用了包括pytorch和tensorflow在内的机器学习框架,以下是已经验证过的主要环境依赖:
- python环境:py3.8、py3.10
- pytorch版本:torch2.0.0、torch2.0.1
- 张量流版本:2.7.0,张量流CPU
- CUDA 版本:11.7
- CUDNN 版本:8+
- 操作系统版本: Ubuntu 20.04, CentOS 7.9
- GPU型号:Nvidia-A10 24G
资源占用
- GPU:显存占用约19G
- 磁盘:推荐装备50GB以上的存储空间
算法介绍
基本原理
个人写真模型的能力来源于稳定扩散模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。在此,分别使用线下训练风格的LoRA模型和线上训练的人脸LoRA模型来学习上述信息。LoRA是一种具有未知可训练参数的模型,在Stable Diffusion中,可以通过对少量输入图像进行文生图训练的方式将输入相应图像的信息注入到LoRA模型中。,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于稳定扩散模型的图像与文本标签数据,获取人脸LoRA模型;基于人脸LoRA模型和风格LoRA模型生成个人写真的推断阶段。
训练阶段
输入:用户上传的包含清晰人脸区域的图像
输出:人脸LoRA模型
描述:首先,分别使用基于判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接下来,使用人体解析模型和人像美肤模型,实现高精度的人脸训练图像;接着,使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,使用将图像和标签数据稳定扩散模型得到人脸LoRA模型。
推断阶段
输入:训练阶段用户上传图片,默认的用于生成个人照片的输入提示词
输出:个人写真图片
描述:首先,将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中;接下来,使用Stable Diffusion模型的文生图功能,根据预设的输入提示词预设生成个人写真图像;另外,利用人脸融合模型进一步改进了上述人脸肖像的细节,其中人脸融合的模板通过人脸质量评估模型在训练图像中选取;最后,利用人脸识别模型计算生成的人脸图像以模板人脸的相似程度,初步对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI 提出 GPT-4 可改进在线平台内容审核工作
OpenAI 发文介绍了其最新的研究发现,即 GPT-4可以帮助在线平台更有效地管理用户内容。 “使用 GPT-4 的内容审核系统可以更快地迭代政策变更,将周期从数月缩短至数小时。GPT-4 还能解释冗长的内容政策文档中的规则和细微差别,并即时适应政策更新,从而使标签更加一致。我们相信,这为数字平台的未来提供了一个更积极的愿景,即人工智能可以根据平台特定的政策帮助节制在线流量,减轻大量人工版主的精神负担。任何拥有 OpenAI API 访问权限的人都可以实施这种方法来创建自己的人工智能辅助审核系统。” OpenAI 声称,他们的大型语言模型(例如 GPT-4)可以理解并生成自然语言,使其适用于内容审核。这些模型可以根据提供给他们的政策指南做出适度判断。 一项新的内容政策发布后,首先得人工了解政策的执行;然后收集反馈意见以确定新政策是否可行,以及对反馈中的问题进行纠正。某些情况下,这一过程可能需耗时几个月,但 OpenAI 研究认为,GPT-4 可以在几个小时内完成该任务。 一旦制定了政策指南,政策专家就可以通过识别少量示例并根据政策为其分配标签来创建一组黄金数据。 然后,GPT-4 读...
- 下一篇
苹果开源 FastViT:快速卷积 Transformer 的混合视觉架构
苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的FastViT 架构已正式开源。 论文地址:https://arxiv.org/pdf/2303.14189.pdf 代码仓库:https://github.com/apple/ml-fastvit FastViT 有机地结合了 CNN 和 Transformer 的优势,无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子,命名为 RepMixer。从名字来看,它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。 FastViT 整体框架图: 实验结果表明,FastViT: 在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍 在 ImageNet 数据集上的精度相同,但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍 在相似的延迟下,Fa...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7,8上快速安装Gitea,搭建Git服务器