腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
6月21日,腾讯混元文生图大模型(以下简称为混元 DiT 模型)宣布全面开源训练代码,同时对外开源混元 DiT LoRA 小规模数据集训练方案与可控制插件 ControlNet。
这意味着,全球的企业与个人开发者、创作者们,都可以基于混元 DiT 训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元 DiT 的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。
作为中文原生模型,用户在通过混元 DiT 的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。
此前,腾讯混元文生图大模型宣布全面升级并对外开源,已在 Hugging Face 平台及 Github 上发布,可供企业与个人开发者免费商用。这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解。模型开源仅一个月,Github Star 数达到2.4k,位于开源社区热门 DiT 模型前列。
混元DiT Github项目页面
在开源训练代码的同时, LoRA 小规模数据集训练方案与可控制插件 ControlNet 的发布也让混元 DiT 模型的开源生态更具想象力。
LoRA 模型,全称 Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的技术。在文生图模型中,LoRA 被用作一种插件,允许用户在不修改原有模型与增加模型大小的情况下,利用少量数据训练出具有特定画风、IP 或人物特征的模型。
LoRA 技术在文生图开源领域十分受欢迎,大量的创作者利用这种技术创造出多种多样的模型,比如使用几张个人照片,生成一个专属于某个人的高精度照相馆;或创造出盲盒、黏土等风格模型。
AI 图像社区 LiblibAI 上的 LoRA 模型
混元 DiT 本次发布的专属 LoRA 插件,支持开发者最少仅需一张图即可创作出专属的模型。比如,导入四张青花瓷图片与相应的提示词,即可完成模型训练,创建了一个“青花瓷”生成模型:用户输入简单提示词,即可生成想要的青花瓷图像。
部分训练数据:
训练后模型的推理结果示例:
使用混元 DiT LoRA 训练的青花瓷生成模型
本次上线的另一个插件 ControlNet,则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。
目前,腾讯混元提供了能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件的三个首发 ControlNet 模型,让开发者直接使用其进行推理。该三个 ControlNet 插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元 DiT 也开源了 ControlNet 的训练方案,开发者与创作者可以训练自定义的 ControlNet 模型。
腾讯混元 DiT 上线的三个 ControlNet 插件效果演示
自混元 DiT 模型开源以来,得到了众多开发者的支持和反馈,腾讯混元团队也一直在持续完善和优化基于混元 DiT 的开源组件,与行业共建下一代视觉生成开源生态。本月初,混元 DiT 发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%。同时模型易用性大幅提升,用户可以基于 ComfyUI 的图形化界面,使用混元 DiT,或者通过 Hugging Face Diffusers 通用模型库,仅用三行代码即可调用混元 DiT 模型,无需下载原始代码库。
据了解,腾讯混元文生图能力已广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式 AI 广告创意平台腾讯广告妙思。《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。
腾讯混元开源文生图大模型
官网:https://dit.hunyuan.tencent.com/
代码:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
数据制作流程:https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
超级难的函数式大模型应用,算法专家会怎么解题?
RAG、text2api、text2sql、澄清反问和生成图表,都是大模型应用中经常使用的不同类型的任务或功能。为了优化和提升大模型在处理复杂任务时的表现,通常把它们以链的方式串起来。在这些链中,又包含不同的子过程,它们之间可能存在嵌套、回退、跳转、并行、汇总等复杂的处理逻辑。 顺序链(图片来源:https://mpspatel555.medium.com/develop-apllication-with-llm-and-langchain-e1ba3df1cea5) 因此,在函数式大模型应用中常常会面临以下挑战: 链路过长与调用复杂性:在复杂的函数式架构中,由于函数相互调用形成的长链路和深层嵌套,可能导致系统难以理解和维护。这种结构增加了监控的难度,使得故障排查和性能分析变得更加复杂。当函数调用路径非线性增加时,问题定位和调试尤为困难。 性能瓶颈识别与优化难题:在函数式编程模型中,由于函数的纯度和不可变性原则,虽然有助于逻辑清晰和测试,但这也可能使得定位和优化性能瓶颈变得更加困难。没有明确的状态变化和副作用,跟踪函数执行的资源消耗和时间成本可能需要更细致的监控机制和分析工具。 模型用...
- 下一篇
Diboot 低代码 v3.4.0 发布,集成 AI 对话
v3.4.0 版本主要带来了以下重磅更新: AI 对话:集成了通义、文心、Kimi等大模型的AI对话功能 国际化:前后端完整的国际化方案实现 代码生成:devtools支持配置并生成业务对象选择器、配置并生成链接弹窗查看关联数据详情、生成移动端CRUD页 企业版:表单详情页面打印、工作流的流程模拟运行和批量转办等 具体更新内容如下: 内核 diboot-core & core-starter v3.4.0 新增: 字典选项数据支持缓存,绑定字典等查询实现优先从缓存中读取 BaseService新增getValuesOfField(k, v)接口获取指定字段的值 支持国际化 优化: 优化BindQuery解析中对不存在字段的处理逻辑,避免漏解析指定了BindQuery的非表字段 优化BeanUtils.getGenericityClass()向上查找泛型类逻辑,适配多级继承场景 优化condition解析兼容待绑定表字段指定前缀的情况 优化@BindField*数据绑定时忽略滤数据权限拦截 依赖升级: 升级 Spring Boot至 v3.3.0,Mybatis-plus 至 v...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池