腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行
7月4日,腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LoRA模型;同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。
此外,腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作高质量的文生图数据集。
相比起业界的开源打标模型,混元Captioner模型能更好的理解与表达中文语义,输出的图片描述更为结构化、完整和准确,并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。
混元Captioner模型开源之后,全球的文生图研究者、数据标注人员,均可使用混元Captioner高效地提升自身图像描述质量,生成更全面、更准确的图片描述,提升模型效果。混元Captioner生成的数据集不仅能用于训练基于混元DiT的模型,亦可用于其他视觉模型训练。
模型易用性再提升,个人电脑可轻松运行
腾讯混元DiT模型宣布了三大更新:推出小显存版本与Kohya训练界面,并升级至1.2版本,进一步降低使用门槛的同时提升图片质量。
基于DiT架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,让许多开发者望而却步。这也是新版本Stable Diffusion模型无法快速普及的原因之一。
应广大开发者的需求,混元DiT推出小显存版本,最低仅需6G显存即可运行优化推理框架,对使用个人电脑本地部署的开发者非常友好。经过与Hugging Face合作,小显存版本、LoRA与ControlNet插件,都已经适配到Diffusers库中。开发者无需下载原始代码,仅用简单的三行代码仅可调用,大大简化了使用成本。
同时,混元DiT宣布接入Kohya,让开发者可以低门槛地训练专属LoRA模型。
Kohya是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面,完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。
面向文生图、支持中英文,提升数据质量
在提升模型易用性的同时,腾讯混元团队也在开放更多的关键技术,包括此前的训练代码,最新的打标模型混元Captioner。
数据集就像AI训练的教材。训练数据集的质量,影响着模型生成内容的效果。因此,文生图开发者往往需要对原始图片进行清晰、全面的标注,制作高质量的数据集,才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。
借助打标模型,开发者可以快速生成高质量数据集。具体来说,文生图开发者将原始图片集导入混元Captioner,后者将生成高质量标注;也可以导入图片与原始描述,利用混元Captioner过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。
目前,业界对于图片描述文本的生成,主要使用通用多模态Captioner模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。
混元Captioner对图片描述进行结构化与准确度提升
混元Captioner的背景知识更为完善
混元Captioner模型针对文生图场景专门进行优化:构建了结构化的图片描述体系;并在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性;并注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识,让模型输出的描述更为准确、完整。
混元Captioner模型构建了结构化的图片描述体系
众多开发者关注,成最受欢迎国产DiT开源模型
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。
目前,在众多开发者的支持下,混元DiT发布不到2个月,Github Star数已经超过2.6k,成为最受欢迎的国产DiT开源模型。
腾讯混元开源文生图大模型相关链接:
官网:https://dit.hunyuan.tencent.com/
代码:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
openEuler:智能算力时代的数字基础设施底座
6 月 22 日,由开源中国主办,华为、上海浦东软件园联合主办的【云技术专场】OSC源创会 · 上海站 · 104期线下沙龙成功举办。华为2012实验室openEuler架构师高贵锦发表《openEuler:智能算力时代的数字基础设施底座》主题演讲,介绍了openEuler 24.03 在云原生与AI领域的最新进展,同时分享了关于如何与云原生技术共同打造更好的大模型时代的IT基础设施层平台的实践和思考,以及下一步计划。 以下为高贵锦的演讲回顾,内容由活动现场参会嘉宾@阿维同学贡献。 整理:阿维同学(WeChat:AWTX550W) OpenEuler@2024项目在2024年成功推出了多个长期支持(LTS)版本,标志着其在智能技术领域的全新篇章,并致力于构建全球性的开源新生态。以下是该项目的主要内容和成就概览: 版本发布与贡献 20.03 LTS多样性算力版本:该版本吸引了60位成员和3630名贡献者,展示了 openEuler 在多样性算力领域的强大实力。 22.03 LTS全场景版本:这个版本拥有330位成员和8403名贡献者,装机量达到130万,并推出了151个社区创新项目。 2...
- 下一篇
PowerToys v0.82 发布
Microsoft PowerToys 是 Windows 系统实用程序,供高级用户调整和简化其 Windows 体验,可最大限度地提高生产力。PowerToys v0.82 现已发布,一些更新亮点如下: PowerRename 添加了新功能,允许在重命名文件时使用随机字符和 UUID 序列。 改进了 Paste As JSON 功能,以便更好地处理其他 CSV 分隔符和从 ini 文件转换。 修复了在 Color Picker 和 PowerToys Run 上升级到 WPF UI 后报告的 UI 问题。 错误修复和稳定性。 修复了导致外部应用程序触发 Advanced Paste 的问题。(这是 0.81 版的修补程序) 添加了 GPO 规则以禁止在 Advanced Paste 中使用在线模型。(这是 0.81 版的修补程序) 修复了升级到 WPFUI 后出现的 picker不透明背景角落问题。 改进了 .gitignore 文件的语法高亮。 后台代码中的 sticky scroll 选项检查了两次。删除了其中一项检查。 增加了 UI 部分工具提示的清晰度。 修复了预览处理程序从...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块