腾讯混元开源定制化图像生成插件 InstantCharacter-低调大师

腾讯混元开源定制化图像生成插件 InstantCharacter

2025-04-18 344

腾讯混元宣布开源定制化图像生成插件 InstantCharacter，并实现了对开源文生图模型Flux的兼容。“通过这个插件，在大模型中，只需要一张图加一句话，你可以让任何角色以你想要的姿势出现在任何地方。”

示例：

输入原始图片

+ prompt ：a rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图：

+prompt：a rabbit in the city,cyberpunk

就可以得到：

根据介绍，InstantCharacter的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高，同时具有灵活的文本编辑性，用户可以根据需要灵活切换任意场景，让人物生成任意动作。

其在角色一致性和图像生成的精确度上超过了此前业界的相关技术，能够处理多种风格和复杂度的图像。通过这个插件，内容创作者可以让生成的角色保持高度一致，能够更高效地创作出符合其需求的视觉作品，可以用于连环画、影片创作等场景。

测评结果显示，InstantCharacter实现的效果媲美GPT 4o等业界领先模型。

InstantCharacter 利用DiT模型构建了一个创新的框架。框架引入了一个可扩展的适配器（adapter），采用多个transformer encoder，能够有效处理开放域的角色特征，并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时，为了有效训练框架，腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对（多视角角色）和非成对（文本-图像组合）子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

微信关注我们

原文链接：https://www.oschina.net/news/345284

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAI 推出

为了更积极地与 Google 等竞争对手的人工智能公司竞争，OpenAI 推出了Flex 处理 (Flex processing)，这是一种 API 选项，它提供更低的人工智能模型使用价格，但响应时间较慢且“偶尔资源不可用”。「Flex processing」可以显著降低 Chat Completions 或 Responses 请求的成本，但会以较慢的响应时间和偶尔的资源不可用为代价。它非常适合非生产或低优先级任务，如模型评估、数据丰富化或异步工作负载。 OpenAI 表示， Flex 处理是 OpenAI 最近发布的 o3 和 o4-mini 推理模型的测试版，旨在处理模型评估、数据丰富和异步工作负载等低优先级和 “非生产” 任务。它将 API 成本降低了整整一半。对于 o3，Flex 处理价格为每百万输入词元（约 75 万字）5 美元，每百万输出词元 20 美元，而标准价格为每百万输入词元 10 美元，每百万输出词元 40 美元。对于 o4-mini，Flex 将价格从每百万输入词元 1.10 美元和每百万输出词元 4.40 美元降至每百万输入词元 0.55 美元和每百万输...

2025-04-18

322

上半场是预训练，是用算法、架构解决问题；下半场，是 RL 终于起作用了，要做的是定义问题和评估。日前，毕业于清华大学姚班，现任 OpenAI 研究院的姚顺雨发布博文，探讨了其对 AI 未来的发展预测。姚顺雨回顾了 AI 的发展历史。其表示，几十年来 AI 主要致力于开发新的训练方法和模型，取得了显著成就，而这些成就都源于基础性创新，例如搜索、深度强化学习（Deep RL）和推理能力。而如今，深度强化学习终于开始泛化，AI 为人类赋能的局面也得到了变化。姚顺雨认为，随着强化学习的突破，AI 开始解决多样化的任务，如软件工程、创意写作和 IMO 级别的数学问题。通过语言和推理的引入，AI 能够跨领域泛化任务，解决复杂问题。姚顺雨还提到，AI 的下半场将由解决问题转向定义问题，评估方法的创新将成为关键。此外，姚顺雨还表示，传统的评估方法已难以应对复杂的现实需求，AI 需要具备长时记忆和适应能力。他强调，新的评估方式应着眼于实际应用，推动 AI 产品的效用和商业价值，为行业带来更大的创新和影响。

2025-04-18

214

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。