腾讯混元文生图开源模型推出小显存版本，仅需6G显存即可运行

2024-07-05 416

7月4日，腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlNet等插件，都已适配至Diffusers库；并新增对Kohya图形化界面的支持，让开发者可以低门槛地训练个性化LoRA模型；同时，混元DiT模型升级至1.2版本，在图片质感与构图方面均有所提升。

此外，腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作高质量的文生图数据集。

相比起业界的开源打标模型，混元Captioner模型能更好的理解与表达中文语义，输出的图片描述更为结构化、完整和准确，并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。

混元Captioner模型开源之后，全球的文生图研究者、数据标注人员，均可使用混元Captioner高效地提升自身图像描述质量，生成更全面、更准确的图片描述，提升模型效果。混元Captioner生成的数据集不仅能用于训练基于混元DiT的模型，亦可用于其他视觉模型训练。

模型易用性再提升，个人电脑可轻松运行

腾讯混元DiT模型宣布了三大更新：推出小显存版本与Kohya训练界面，并升级至1.2版本，进一步降低使用门槛的同时提升图片质量。

基于DiT架构的文生图模型生成图片质感更佳，但对显存的要求却非常高，让许多开发者望而却步。这也是新版本Stable Diffusion模型无法快速普及的原因之一。

应广大开发者的需求，混元DiT推出小显存版本，最低仅需6G显存即可运行优化推理框架，对使用个人电脑本地部署的开发者非常友好。经过与Hugging Face合作，小显存版本、LoRA与ControlNet插件，都已经适配到Diffusers库中。开发者无需下载原始代码，仅用简单的三行代码仅可调用，大大简化了使用成本。

同时，混元DiT宣布接入Kohya，让开发者可以低门槛地训练专属LoRA模型。

Kohya是一个开源的、轻量化模型微调训练服务，提供了图形化的用户界面，被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面，完成模型的全参精调及LoRA训练，无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构，可以低成本与 WebUI 等推理界面结合，实现一整套“训练-生图”工作流。

面向文生图、支持中英文，提升数据质量

在提升模型易用性的同时，腾讯混元团队也在开放更多的关键技术，包括此前的训练代码，最新的打标模型混元Captioner。

数据集就像AI训练的教材。训练数据集的质量，影响着模型生成内容的效果。因此，文生图开发者往往需要对原始图片进行清晰、全面的标注，制作高质量的数据集，才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。

借助打标模型，开发者可以快速生成高质量数据集。具体来说，文生图开发者将原始图片集导入混元Captioner，后者将生成高质量标注；也可以导入图片与原始描述，利用混元Captioner过滤其中的无关信息，并完善和优化图片描述，以提高数据质量。

目前，业界对于图片描述文本的生成，主要使用通用多模态Captioner模型，存在描述过于简单或繁琐（与画面描述的无关信息过多）、缺少背景知识导致无法识别知名人物和地标等问题，并且许多模型并非中文原生，中文描述不够精准。

混元Captioner对图片描述进行结构化与准确度提升

混元Captioner的背景知识更为完善

混元Captioner模型针对文生图场景专门进行优化：构建了结构化的图片描述体系；并在模型层面，通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性；并注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识，让模型输出的描述更为准确、完整。

混元Captioner模型构建了结构化的图片描述体系

众多开发者关注，成最受欢迎国产DiT开源模型

作为首个中文原生DiT开源模型，混元DiT自全面开源以来，一直持续建设生态。6月，混元DiT发布的专属加速库，可将推理效率进一步提升，生图时间缩短75%；并进一步开源了推理代码；发布LoRA和ControlNet等插件。于此同时，模型易用性大幅提升，用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件，或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。

目前，在众多开发者的支持下，混元DiT发布不到2个月，Github Star数已经超过2.6k，成为最受欢迎的国产DiT开源模型。

腾讯混元开源文生图大模型相关链接：

官网：https://dit.hunyuan.tencent.com/

代码：https://github.com/Tencent/HunyuanDiT

模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

论文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

微信关注我们

原文链接：https://my.oschina.net/u/6852546/blog/11354354

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

openEuler：智能算力时代的数字基础设施底座

6 月 22 日，由开源中国主办，华为、上海浦东软件园联合主办的【云技术专场】OSC源创会 · 上海站 · 104期线下沙龙成功举办。华为2012实验室openEuler架构师高贵锦发表《openEuler：智能算力时代的数字基础设施底座》主题演讲，介绍了openEuler 24.03 在云原生与AI领域的最新进展，同时分享了关于如何与云原生技术共同打造更好的大模型时代的IT基础设施层平台的实践和思考，以及下一步计划。以下为高贵锦的演讲回顾，内容由活动现场参会嘉宾@阿维同学贡献。整理：阿维同学（WeChat：AWTX550W） OpenEuler@2024项目在2024年成功推出了多个长期支持（LTS）版本，标志着其在智能技术领域的全新篇章，并致力于构建全球性的开源新生态。以下是该项目的主要内容和成就概览：版本发布与贡献 20.03 LTS多样性算力版本：该版本吸引了60位成员和3630名贡献者，展示了 openEuler 在多样性算力领域的强大实力。 22.03 LTS全场景版本：这个版本拥有330位成员和8403名贡献者，装机量达到130万，并推出了151个社区创新项目。 2...

2024-07-05

493

Microsoft PowerToys 是 Windows 系统实用程序，供高级用户调整和简化其 Windows 体验，可最大限度地提高生产力。PowerToys v0.82 现已发布，一些更新亮点如下： PowerRename 添加了新功能，允许在重命名文件时使用随机字符和 UUID 序列。改进了 Paste As JSON 功能，以便更好地处理其他 CSV 分隔符和从 ini 文件转换。修复了在 Color Picker 和 PowerToys Run 上升级到 WPF UI 后报告的 UI 问题。错误修复和稳定性。修复了导致外部应用程序触发 Advanced Paste 的问题。（这是 0.81 版的修补程序）添加了 GPO 规则以禁止在 Advanced Paste 中使用在线模型。（这是 0.81 版的修补程序）修复了升级到 WPFUI 后出现的 picker不透明背景角落问题。改进了 .gitignore 文件的语法高亮。后台代码中的 sticky scroll 选项检查了两次。删除了其中一项检查。增加了 UI 部分工具提示的清晰度。修复了预览处理程序从...

2024-07-05

383

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。