腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件-低调大师

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

2024-06-24 385

6月21日，腾讯混元文生图大模型（以下简称为混元 DiT 模型）宣布全面开源训练代码，同时对外开源混元 DiT LoRA 小规模数据集训练方案与可控制插件 ControlNet。

这意味着，全球的企业与个人开发者、创作者们，都可以基于混元 DiT 训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元 DiT 的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。

作为中文原生模型，用户在通过混元 DiT 的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。

此前，腾讯混元文生图大模型宣布全面升级并对外开源，已在 Hugging Face 平台及 Github 上发布，可供企业与个人开发者免费商用。这是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解。模型开源仅一个月，Github Star 数达到2.4k，位于开源社区热门 DiT 模型前列。

混元DiT Github项目页面

在开源训练代码的同时， LoRA 小规模数据集训练方案与可控制插件 ControlNet 的发布也让混元 DiT 模型的开源生态更具想象力。

LoRA 模型，全称 Low-Rank Adaptation of Large Language Models，是一种用于微调大型语言模型的技术。在文生图模型中，LoRA 被用作一种插件，允许用户在不修改原有模型与增加模型大小的情况下，利用少量数据训练出具有特定画风、IP 或人物特征的模型。

LoRA 技术在文生图开源领域十分受欢迎，大量的创作者利用这种技术创造出多种多样的模型，比如使用几张个人照片，生成一个专属于某个人的高精度照相馆；或创造出盲盒、黏土等风格模型。

AI 图像社区 LiblibAI 上的 LoRA 模型

混元 DiT 本次发布的专属 LoRA 插件，支持开发者最少仅需一张图即可创作出专属的模型。比如，导入四张青花瓷图片与相应的提示词，即可完成模型训练，创建了一个“青花瓷”生成模型：用户输入简单提示词，即可生成想要的青花瓷图像。

部分训练数据：

训练后模型的推理结果示例：

使用混元 DiT LoRA 训练的青花瓷生成模型

本次上线的另一个插件 ControlNet，则是一种应用于文生图领域的可控化生成算法，它允许用户通过添加额外条件来更好地控制图像的生成。

目前，腾讯混元提供了能提取与应用图像的边缘（canny）、深度（depth）、人体姿势（pose）等条件的三个首发 ControlNet 模型，让开发者直接使用其进行推理。该三个 ControlNet 插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时，混元 DiT 也开源了 ControlNet 的训练方案，开发者与创作者可以训练自定义的 ControlNet 模型。

腾讯混元 DiT 上线的三个 ControlNet 插件效果演示

自混元 DiT 模型开源以来，得到了众多开发者的支持和反馈，腾讯混元团队也一直在持续完善和优化基于混元 DiT 的开源组件，与行业共建下一代视觉生成开源生态。本月初，混元 DiT 发布的专属加速库，可将推理效率进一步提升，生图时间缩短75%。同时模型易用性大幅提升，用户可以基于 ComfyUI 的图形化界面，使用混元 DiT，或者通过 Hugging Face Diffusers 通用模型库，仅用三行代码即可调用混元 DiT 模型，无需下载原始代码库。

据了解，腾讯混元文生图能力已广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型发布了一站式 AI 广告创意平台腾讯广告妙思。《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。

腾讯混元开源文生图大模型

官网：https://dit.hunyuan.tencent.com/

代码：https://github.com/Tencent/HunyuanDiT

模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

论文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

数据制作流程：https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

微信关注我们

原文链接：https://my.oschina.net/u/6852546/blog/11214009

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

超级难的函数式大模型应用，算法专家会怎么解题？

RAG、text2api、text2sql、澄清反问和生成图表，都是大模型应用中经常使用的不同类型的任务或功能。为了优化和提升大模型在处理复杂任务时的表现，通常把它们以链的方式串起来。在这些链中，又包含不同的子过程，它们之间可能存在嵌套、回退、跳转、并行、汇总等复杂的处理逻辑。顺序链（图片来源：https://mpspatel555.medium.com/develop-apllication-with-llm-and-langchain-e1ba3df1cea5）因此，在函数式大模型应用中常常会面临以下挑战：链路过长与调用复杂性：在复杂的函数式架构中，由于函数相互调用形成的长链路和深层嵌套，可能导致系统难以理解和维护。这种结构增加了监控的难度，使得故障排查和性能分析变得更加复杂。当函数调用路径非线性增加时，问题定位和调试尤为困难。性能瓶颈识别与优化难题：在函数式编程模型中，由于函数的纯度和不可变性原则，虽然有助于逻辑清晰和测试，但这也可能使得定位和优化性能瓶颈变得更加困难。没有明确的状态变化和副作用，跟踪函数执行的资源消耗和时间成本可能需要更细致的监控机制和分析工具。模型用...

2024-06-24

323

v3.4.0 版本主要带来了以下重磅更新: AI 对话：集成了通义、文心、Kimi等大模型的AI对话功能国际化：前后端完整的国际化方案实现代码生成：devtools支持配置并生成业务对象选择器、配置并生成链接弹窗查看关联数据详情、生成移动端CRUD页企业版：表单详情页面打印、工作流的流程模拟运行和批量转办等具体更新内容如下：内核 diboot-core & core-starter v3.4.0 新增: 字典选项数据支持缓存，绑定字典等查询实现优先从缓存中读取 BaseService新增getValuesOfField(k, v)接口获取指定字段的值支持国际化优化: 优化BindQuery解析中对不存在字段的处理逻辑，避免漏解析指定了BindQuery的非表字段优化BeanUtils.getGenericityClass()向上查找泛型类逻辑，适配多级继承场景优化condition解析兼容待绑定表字段指定前缀的情况优化@BindField*数据绑定时忽略滤数据权限拦截依赖升级: 升级 Spring Boot至 v3.3.0，Mybatis-plus 至 v...

2024-06-24

463

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。