JianYi: 淘宝家装行业的分割&抠图系统
引言
在电子商务领域,图像分割与抠图技术扮演着关键角色。这些技术不仅为多种在线应用提供便利功能,还作为高质量数据的重要来源,支持多项业务流程和模型训练。在室内家装场景中,图像分割与抠图的需求尤为迫切,面临特定复杂案例及独特的优化需求。然而,传统方法在精度、交互能力和场景适应性方面存在不足。
为此,我们自主研发了JianYi(剪艺)分割算法,专注提升分割精度,并提供三种交互方式,实现更高效的多模态交互体验。此外,该算法针对室内家装场景进行了专门优化,确保在复杂环境中依然能保持卓越性能。基于此,我们构建了淘宝家装行业的分割与抠图系统,涵盖商品分割、人体分割和全景分割三大核心功能。该系统能够稳定、高效地处理每日百万级的数据,展现出色的精度、性能和多模态交互能力。
商品分割 (边缘清晰&镂空精确) | 人体分割 (摆件打组完整&家具分离干净) | 全景分割 (主家具打组完整&边缘清晰) | |||
| | | | | |
| | | | | |
| | | | | |
JianYi分割算法在淘宝家装行业的"家作"和"放我家"两大AI应用中展现出卓越的性能。专注于室内家装场景,该算法通过多模态交互技术实现高精度的图像抠图功能。其创新设计不仅提升了用户体验,还显著提高了操作效率,为家装行业带来了全新的智能解决方案。
JianYi同时支持在线实时抠图,以及离线批量抠图:1)家作官网支持实时抠图,用户根据需求选择一键抠图和选品抠图,支持室内商品抠图。2)淘宝的“放我家”应用中,截止2025年1月,每日抠图数量120万,覆盖绝大部份家具家饰类目,带来DAU增长196%(2024年10月2.5w -> 2025年2月7.4w)。3)JianYi分割算法也为团队内累计生产200万的高精度分割数据,用于内部模型训练。
▐ 家作--商品分割
在“家作”应用中,JianYi分割算法被用于“智能抠图”和“室内棚拍”功能。“智能抠图”功能中,“一键抠图”模式可以自动识别主要家具,而“选品抠图”模式则允许用户手动选择区域以获得更精确的结果。“室内棚拍”功能中,分割算法用于前处理,确保高效的图像处理。
应用地址:https://jiazuo.taobao.com/#/matting
在“放我家”应用中,JianYi分割算法应用于前台展示、商品重绘和商家后台。前台展示中,算法通过类目文本和图像作为多模态输入,对商家SKU图进行抠图,并在淘宝的“放我家”页面展示主商品。商品重绘后,算法再次进行抠图以确保最终展示效果。在商家后台,上传的素材也通过该算法进行精准抠图处理。
| | | |
| | | |
| | | |
| | | |
在“放我家”应用的“家还原”功能中,我们采用JianYi_panoptic全景分割技术,为室内家装场景提供前后景分离和软装分层。前后景分离利用精准分割去除软装元素,仅展示硬装。软装分层则让每个软装元素独立分离,用户可在整洁的房间中自由编辑和替换,实现个性化家装设计。
| | | |
| | | |
-
多源数据集构建策略
JianYi通过多源数据集构建策略,旨在优化显著性分割模型,以提升其在室内场景中的表现。具体而言,我们结合使用了3D渲染数据、人工抠图数据和合成数据,以覆盖广泛的家装类目并增强模型的泛化能力。
3D渲染数据 | 人工抠图数据 | 合成数据 | |||
| | | | | |
| | | | | |
3D渲染数据从室内场景中生成,涵盖超过10种家装类目,其高精度在镂空和细枝细节上表现卓越,成为训练的重要参考。然而,其边缘不够平滑,需谨慎使用,以避免影响模型精度。
人工抠图数据涵盖大部分家装类目,尤其在床、沙发、桌、椅、柜五类中丰富。为满足电商需求,还添加了白底图和尺寸线条抠图。高边缘精度和电商特征明显提升了模型分割能力。
合成数据针对牛皮癣场景设计,处理商品与牛皮癣遮挡关系。通过白底图与牛皮癣模板叠加,生成可靠分割结果,使模型在复杂遮挡情况下提高准确性,有力支持高精度分割。
-
显著性分割模型优化
JianYi运用多源数据集策略构建训练集,选择BiRefNet作为显著性分割模型的baseline。通过双向参考机制增强细节捕捉能力,使其在复杂场景下表现优异。我们利用室内家装场景的多源数据,丰富模型训练素材。通过优化显著性分割,提升了模型的分割效果。
具体优化包括:提高商品完整度分割的准确性,专注于主体商品分割以提升精确性,以及去除商品周围牛皮癣和尺寸线条,改善分割纯净度和视觉效果。
| | | | | |
| | | | | |
| | | | | |
-
联合使用闭集和开放集的检测模型
JianYi结合闭集检测模型YOLO11和开放集检测模型Grounding DINO,实现高效的图像对象检测和分割。YOLO11通过3D数据训练,精准识别常见家装物品,并经过微调提高准确度;Grounding DINO补充检测非常规类目,两者结合可以提供全面准确的检测结果。
抠图过程中,图像检测模块优先使用YOLO11识别常规类别,Grounding DINO处理非常规类目,确保获取精确目标边界框。系统还可识别特定家具组合,保证检测完整性和准确性。生成的边界框用于后续显著性分割。
在分割阶段,显著性分割模型对边界框区域进行细粒度分割,生成高精度掩码。最终输出包括过滤后的边界框、标签和掩码,为图像处理和分析提供坚实基础和可靠技术支持。
| | |
| | |
| | |
-
三种多模态的抠图交互方式
JianYi设计了三种创新交互方式,满足用户不同情况下的图像分割需求,提供简单到复杂的解决方案,实现高效精准的分割结果。
-
单图输入模式:用户只需上传一张图片,系统自动应用显著性分割算法,智能识别并提取图像中的主商品,输出透明底图,适合快速获取主要图像信息。
-
图文输入模式:结合图像和标签输入,系统利用训练模型定位分析,并生成与标签匹配的商品透明底图,适合精准处理特定商品。
-
图框输入模式:用户输入图片和边界框,系统根据框内区域进行详细分割,输出透明底图,提供精细控制,适用于特定区域的深入分析。
这些交互方式提升了图像处理效率和精准性,为用户提供多样选择,灵活适应复杂应用场景,充分发挥系统潜力。
-
抠图后处理链路
JianYi摒弃了传统抠图算法中的腐蚀和膨胀后处理方法,以避免分割精度下降。通过引入精细的噪声过滤和主物体提取策略,显著提升图像分割的准确性和有效性。传统方法依赖形态学操作来消除噪声,易导致细节丢失和误标记。我们采用噪声过滤机制,分析掩码并保留最大连通区域,去除孤立噪声,确保分割结果的纯净度。在多掩码合并中,我们设计了一种优化策略,合并独立掩码并选择最大区域作为最小集,确保分割结果集中于主要物体,避免无关区域干扰。
这些创新方法提升了抠图算法的分割精度,不依赖传统操作,提高了图像处理的准确性,为复杂场景下的分析提供可靠技术支持,满足用户高精度处理需求。
-
与竞品的效果对比
JianYi抠图应用可以精准抠出目标商品,外部抠图应用则更容易出现背景残留、抠出多主体、主商品不完整等问题。
| | | | | |
| | | | | |
| | | | | |
| | | | | |
| | | | | |
| | | | | |
AI模特的模型训练依赖于高精度的人体分割数据,以提升其性能。在家装场景中,自研人体分割模型JianYi_human针对“人体与摆件打组”和“人体与家具分离”两类特异性需求,通过SFT优化,增强了打组完整性以及遮挡部分的分割精度。该模型不仅用于AI模特训练的数据离线生产,还支持人体抠图的在线应用,持续提高分割效果和应用效率。
| | | |
| | | |
| | | |
在室内环境中,全景分割是一项重要的技术。它能够识别和标记图像中的每一个物体和背景,为每个像素赋予标签,从而实现对场景的全面理解。这项技术对于智能家居、机器人导航以及增强现实等领域至关重要,能够帮助设备在复杂环境中做出更加明智的决策。JianYi_panoptic技术通过全景分割模型解析室内场景,结合数据工程、模型SFT以及算法和工程链路优化,显著提升模型效果。
| | | | |
| | | | |
JianYi_panoptic | | | | |
| | | | |
在电子商务领域,图像分割与抠图技术至关重要,尤其在室内家装场景中,需要面对复杂案例和优化需求。为满足市场需求,我们研发了JianYi(剪艺)分割算法,并开发了淘宝家装行业的分割与抠图系统,涵盖商品分割、人体分割和全景分割三大功能。该系统稳定高效地处理每日百万级数据,展现出卓越的精度、性能和多模态交互能力,为在线应用和模型训练提供高质量数据支持。同时,我们团队正在进行家装行业AI技术的相关研发,以提高家装AI模型的效果。我们希望与对此方向感兴趣的同学一起探讨和交流。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
360 浏览器全面升级为 AI 浏览器
360近日宣布旗下全系浏览器产品全面升级为AI浏览器,4亿用户由此迈入AI智能协作新时代。这一变革意味着用户在同一窗口即可调用大模型能力,实现搜索、阅读、写作等一体化操作,浏览器角色由“信息入口”转型为“智能助手”。 此次升级,360AI浏览器围绕搜索、阅读与助手三大核心场景,推出多项原生智能功能。AI搜索系统支持语音、图片及自然语言模糊输入,自动理解意图、跨平台检索,并结构化呈现精准答案,实现“找东西一步到位”。 同时,浏览器右上角新增常驻智能助手“问问纳米”,用户无需跳转页面即可实时提问、调用AI能力处理网页内容。 在内容理解方面,AI阅读功能可对网页、PDF、视频与音频实现一键总结、要点提炼、逻辑梳理与双语摘要,显著提升用户的学习与理解效率。写作方面,浏览器内置多场景模板,助力用户高效完成会议纪要、读书笔记、角色创作等任务,并配合翻译、润色与格式转换功能,提升内容输出流畅度。 360表示,此次AI化升级既是产品功能的革新,也是其在“搜索+浏览”双入口推动AI落地的重要布局。作为核心组成,智能助手“纳米AI”未来将承载更多能力,接入智能硬件系统底座,迈向个人智能操作系统形态。
- 下一篇
可观测性+AI,如何奠定数据底座?
来自北京快猫星云科技有限公司的联合创始人&CTO华明在开源中国社区做了一场视频直播,畅聊在AI大模型时代,服务可观测性如何实现智能化。 分享主要涉及几个主题: 可观测性离智能化远吗? 智能化的愿景、阶段 智能化的跳转和关键障碍 Flashcat的方法、实践和效果 常见问题和思考 首先,华明简介了可观测性的概念,包括三个支柱:指标、日志、链路,以及Opentelementry。 这个是老生常谈了,算是给观众扫盲。 华明认为可观测性实现智能化会分为两个阶段:从智能化增强观测到智能化闭环观测。我们正在向智能化增强观测迈进,而后文所分享的内容都主要围绕这个阶段展开,因为智能化闭环观测的时代,已经没有人类的位置(短期应该不会到来...)。 接下来,华明拆解了人类和观测系统交互的模型,以及AI所在的位置。智能化的过程就是AI逐步取代人类工作的过程。因此相关的周边系统、知识系统都需要面向AI设计。 基于这个模型,华明分享了两个在数据观测智能化领域比较有代表性的公司,分析了他们实现智能化的核心思路。这两家公司是 Resolve.ai和 WisdomAI。 这两家公司指出了实现数据观测分析智能化...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS关闭SELinux安全模块