腾讯混元开源定制化图像生成插件 InstantCharacter
腾讯混元宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型Flux的兼容。“通过这个插件,在大模型中,只需要一张图加一句话,你可以让任何角色以你想要的姿势出现在任何地方。”
示例:
输入原始图片
+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup
就能得到下面的图:
+prompt:a rabbit in the city,cyberpunk
就可以得到:
根据介绍,InstantCharacter的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。
其在角色一致性和图像生成的精确度上超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景。
测评结果显示,InstantCharacter实现的效果媲美GPT 4o等业界领先模型。
InstantCharacter 利用DiT模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。
同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI 推出
为了更积极地与 Google 等竞争对手的人工智能公司竞争,OpenAI 推出了Flex 处理 (Flex processing),这是一种 API 选项,它提供更低的人工智能模型使用价格,但响应时间较慢且“偶尔资源不可用”。 「Flex processing」可以显著降低 Chat Completions 或 Responses 请求的成本,但会以较慢的响应时间和偶尔的资源不可用为代价。它非常适合非生产或低优先级任务,如模型评估、数据丰富化或异步工作负载。 OpenAI 表示, Flex 处理是 OpenAI 最近发布的 o3 和 o4-mini 推理模型的测试版,旨在处理模型评估、数据丰富和异步工作负载等低优先级和 “非生产” 任务。 它将 API 成本降低了整整一半。对于 o3,Flex 处理价格为每百万输入词元(约 75 万字)5 美元,每百万输出词元 20 美元,而标准价格为每百万输入词元 10 美元,每百万输出词元 40 美元。 对于 o4-mini,Flex 将价格从每百万输入词元 1.10 美元和每百万输出词元 4.40 美元降至每百万输入词元 0.55 美元和每百万输...
- 下一篇
OpenAI 研究员姚顺雨:AI 将由解决问题转为定义问题
上半场是预训练,是用算法、架构解决问题; 下半场,是 RL 终于起作用了,要做的是定义问题和评估。 日前,毕业于清华大学姚班,现任 OpenAI 研究院的姚顺雨发布博文,探讨了其对 AI 未来的发展预测。 姚顺雨回顾了 AI 的发展历史。其表示,几十年来 AI 主要致力于开发新的训练方法和模型,取得了显著成就,而这些成就都源于基础性创新,例如搜索、深度强化学习(Deep RL)和推理能力。而如今,深度强化学习终于开始泛化,AI 为人类赋能的局面也得到了变化。 姚顺雨认为,随着强化学习的突破,AI 开始解决多样化的任务,如软件工程、创意写作和 IMO 级别的数学问题。通过语言和推理的引入,AI 能够跨领域泛化任务,解决复杂问题。姚顺雨还提到,AI 的下半场将由解决问题转向定义问题,评估方法的创新将成为关键。 此外,姚顺雨还表示,传统的评估方法已难以应对复杂的现实需求,AI 需要具备长时记忆和适应能力。他强调,新的评估方式应着眼于实际应用,推动 AI 产品的效用和商业价值,为行业带来更大的创新和影响。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS关闭SELinux安全模块
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Mario游戏-低调大师作品
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS8编译安装MySQL8.0.19
- CentOS6,7,8上安装Nginx,支持https2.0的开启