基于参考物体的AIGC图像生成技术在家居导购领域的应用
本文深入探讨了基于参考物体的人工智能图像生成(AIGC)技术的最新进展。首先概述了该类技术如何发展至今,然后着重分析了两篇重要的相关学术论文。随后,文章针对家居导购领域的特殊应用场景,讨论了运用此项技术时遭遇的挑战和取得的最新效果。
引言
随着AIGC技术的快速发展,其中以Stable Diffusion模型为代表的的文生图技术已经在内容生成领域产生了应用价值,用户只需要提供一段文本输入,就能通过AI模型快速生成大量美观的图片,实现了低成本高效率的内容生成。由于文本提供的信息有限,生成的图像内容难以完全对齐用户的意图,生成的图片有时完全不是用户心中想要的内容。为了让用户用起来更加得心应手,最近一年涌现出来了大量关于控制技术的研究。比如Controlnet技术,通过将额外的多样化控制条件(如线稿图、深度图以及分割图等额外信息)应用于文生图扩散模型,可以生成对应结构和布局的图片,用户可以由此更加便捷的对生成图像进行编辑。
参考物体作为图像生成过程时的另一个控制维度,同样受到了广泛关注。基于参考物体的图像生成技术允许用户将参考图像中的物体融入到生成的图像中,同时保留参考物体的身份特征,实现对生成图像中物体的定制化控制。这种技术毫无疑问有广阔的商业价值和应用潜力,比如一个最直接的应用场景就是虚拟试穿。用户只需要提供若干张包含目标服饰的图片,以及自己身材的图片,就可以通过AI模型快速得到目标服饰穿在自己身上的效果,引起用户的购物兴趣。
我们团队一直深耕家装家居导购场景,这种技术同样能够应用于该领域。例如,用户可以通过选择家具或家居装饰品的参考图像,并将其特征融入到生成的家居场景图像中。这样,用户可以在生成的图像中预览所选家具放置在自己家的家居环境中的效果,从而更好地进行家具导购和决策。这种技术的应用实践为用户提供了一种直观、沉浸式的体验,帮助他们更好地理解和评估家居产品的外观和布局,从而进行购物决策。
相关研究
该方法的大致思路是,给定一个参考对象(比如某只小狗)的 3-5 张随意拍摄的图像,再为这几张输入图片给定一个文本 prompt 为“a [identifier] [class noun]”,其中[class noun]是参考对象的大类,例如dog,可在个性化生成时利用此大类别的先验知识。而 [identifier] 是连接该参考对象的唯一标识符,为避免受通用词组的先验知识影响,拟定一个相对稀有的标识符来表示,例如[V]。那么本例的 prompt 就是 a [V] dog,其中 dog 指各种各样的小狗,而[V] dog 就特指参考图片中的小狗。使用图片和prompt对预训练文生图模型进行训练微调后,该参考对象与其对应的唯一标识符就被扩展到了文生图模型的词典中。在应用时,输入 a [V] dog in a bucket 就能生成该指定小狗坐在桶中的图像。
在家居导购场景中,用户可以上传自己家的场景图片,然后选择目标家具商品的白底图,得到该家具放置在自己家的效果图。这个过程包含许多的挑战与困难,比如:
-
角度问题,白底图中的家具视角和用户家场景图的视角存在偏差,如何合成角度和谐的商品效果图?
-
尺寸问题,2D图片不包含家具的尺寸信息,如何在3D的家中生成尺寸合适的目标家具?
-
数据质量问题,线上的大量家具商品往往只包含一张白底图,且质量有高有低。以及其它许多问题给技术的实践应用带来了极大的挑战。
得益于我们团队在家装家居领域多年来的数据和技术积累,我们结合3D和AIGC技术解决了上述部分问题,在家居导购领域初步应用了该类技术。以下展示部分场景的效果。
商品图 | 用户的家 | 生成效果 |
[1] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.
[2] Dongxu Li, Junnan Li, and Steven CH Hoi. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. arXiv:2305.14720, 2023.
[3] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023.
团队介绍
我们是淘天集团-场景智能技术团队,一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破,创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
初探分布式链路追踪
本篇文章,主要介绍应用如何正确使用日志系统,帮助用户从依赖、输出、清理、问题排查、报警等各方面全面掌握。 可观测性 可观察性不单是一套理论框架,而且并不强制具体的技术规格。其核心在于鼓励团队内化可观察性的理念,并确保由研发人员构建的应用程序具备可观察性。在学术领域中,尽管“可观测性”这一术语是近年来从控制理论中引进的新词,但实际上,它在计算机科学领域已有深厚的实践基础。学者们通常会把可观测性细化为三个更具体的研究方向:事件日志、链路追踪和聚合度量。这三个领域虽然各有侧重点,但并非完全孤立,它们之间存在着天然的交集与互补性。 日志(Logging),展现的是应用运行而产生的事件或者程序在执行的过程中间产生的一些日志,可以详细解释系统的运行状态,但是存储和查询需要消耗大量的资源。所以往往使用过滤器减少数据量。 度量(Metrics),是一种聚合数值,存储空间很小,可以观察系统的状态和趋势,但对于问题定位缺乏细节展示。这个时候使用等高线指标等多维数据结构来增强对于细节的表现力。例如统计一个服务的 TBS 的正确率、成功率、流量等,这是常见的针对单个指标或者某一个数据库的。 追踪(Tracin...
- 下一篇
一次因PageHelper引起的多线程复用问题的排查和解决 | 京东物流技术团队
A、Problem Description 1. PageHelper方法使用了静态的ThreadLocal参数,在startPage()调用紧跟MyBatis查询方法后,才会自动清除ThreadLocal存储的对象。 2. 当一个线程先执行了A方法的PageHelper.startPage(int pageNum, int pageSize)后,在未执行到SQL语句前,因为代码抛异常而提前结束。 3. 这个线程被另一个请求复用,根据当前的pageNum和pageSize参数,执行了B方法中的SQL语句。 4. B方法的SQL是全表扫描并查询出所有符合条件的数据,所以因为A方法的分页参数限定<<实际B方法中符合条件的数据量,导致了B方法查询结果的错误。 B、Problem inspection Steps 1. Code Review 先看一下A方法的代码就会发现,在使用了PageHelper.startPage之后,Mybatis查询SQL之前,有很多判断逻辑,并且问题就发生在中间标红的异常情况判断。 B方法在执行到第一个SQL...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS关闭SELinux安全模块
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作