MLLM在电商域互动内容生产的实践
作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年,我们通过在视频生成、图文联合生成等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。
第三篇《OpenAI o1模型的前世今生》
第四篇《多模态人物视频驱动技术回顾与业务应用》
项目背景
模型目标:基于优化后的数据,我们致力于提升模型的性能与训练效率,包括两个方面:
-
多模态结合:通过有效融合文本、视频和音频等多种模态,增强模型对信息的综合理解能力。使其能够应对多种模态的输入,进行正确输出。
-
人类偏好对齐:通过分析和学习用户的行为和偏好,调整模型的输出以更好地满足人类的期望。这包括在生成内容时,考虑用户的个性化需求和期望,确保模型的决策过程与人类的意图高度一致。
解决方案
▐ 1. 融合人类反馈的多模态reward模型
-
任务背景
多模态语料库的数据量非常大,并且包含大量噪声。如果直接将这些未经处理的数据用于模型训练,存在两个问题:
-
噪声数据的存在会干扰模型的学习过程,使得模型偏离关注点,无法准确捕捉数据特征。
-
庞大的数据量将增加计算资源的消耗和训练时间,造成资源极大的浪费。
因此,在进行多模态训练之前,应当首先进行数据清洗和过滤,以提高数据的质量,从而提升模型的整体表现和训练效率。
噪声样本分类
-
解决路径
-
算法设计
Overview: 整体大图
Step1. 偏好数据标注
我们从四个维度:准确度、完整度、细节度、背景感,描述图像和文本的对齐性,得到人类打标的多模态偏好数据HF-dataset。具体地,针对每个图像,我们会
-
通过模型生成、人工标注等多个方式,生成不同粒度的caption -
培训打标人员,对四个维度打分,得到每个维度的准确得分
Step2. Reward Model训练
-
对于HF-dataset数据集中的每个图像I,我们有 m个由人类标注者排名的文本描述,表示为 x1,x2,…,xm。如果 xi 比 xj ,我们将其组织成一个比较对 (I,xi,xj)。对于每个图像生成 多个比较对。 -
我们遵循Bradley-Terry模型来定义成对损失函数,优化模型拉远正负比较样本,表达式为:
基于此优化函数,我们将得到一个细粒度理解人类打标员偏好的reward model。
Step3. 高质量数据清洗
-
算法收益
-
Reward Model清洗的数据质量更好,相比全量数据训练,清洗的高质量数据下游任务有很大提升;Reward Model效果也优于OpenAI CLIP等知名开源模型
-
技术报告:Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data
▐ 2. 音视频多模态的联合预训练
-
任务背景
视频本质上是多模态的,包含了听觉和视觉信息。这种多模态性不仅是视频的固有特征,也是人类感知和与视觉媒体互动的基本方面。例如,在电影的上下文中,同时接触视觉信息和听觉线索显著丰富了观影体验,提高了理解力和享受度。受到这种内在的人类体验的启发,赋能多模态模型同时理解视觉和音频的能力,可以在视频理解上带来了显著的提升。
-
解决路径
-
算法设计
Overview:整体大图
Step1. 指令数据构造
当前,音频和视频信息融合领域的指令数据尚显不足。为解决这一问题,我们利用开源模型,针对视频帧和音频信号生成密集的字幕(caption)。基于这些字幕,我们结合GPT-4,生成音视频对齐的问答对(QA对),其中包括多轮对话、复杂推理和视频描述等内容。
Step2. 音视频模态对齐
基于第一部分的多模态reward模型,对生成的数据进行筛选,得到高相关性的百万级视频和图文评论数据,用于通用音视频的模态对齐
Step3. 指令跟随强化
使用音视频指令数据和偏好数据,一阶段SFT提升指令跟随能力,二阶段RLHF对齐用户偏好
-
算法收益
-
所提出的方案在视频QA: MSR-VTT-QA R1@60.4,ActivityNet-QA R1@50.6, 音视频QA: MUSIC-AVQA R1@47.9, 超过Video-LLaMA和Video-LLaVA,达到SOTA。
-
技术报告:Audio-Visual LLM for Video Understanding
▐ 3. 多模态专家模型的细粒度蒸馏
-
任务背景
-
解决路径
-
算法设计
Overview: 整体大图
Step1. 模仿蒸馏
模仿蒸馏阶段, MOE小模型先学会大模型里的复杂知识,这里面包含两个阶段:通用知识和复杂知识,我们提出general-to-specialized,引导MOE小模型逐渐学习。
模仿蒸馏
MOE小模型存在很严重的幻觉认知,我们以大模型提供的关于何为“好”样本和“坏”样本的知识,为MOE小模型建立了基础参考,提升其判断能力,使其在减少幻觉方面的能力大大提升。
-
算法收益
-
提出的MOE小模型,在复杂理解能力和幻觉消除能力上,都表现优秀。相比同尺寸小模型MiniCPM-V,DeepSeeK-VL,我们的方案只使用了1%不到的数据,性能相比有优势。
复杂理解能力
幻觉消除能力
-
技术报告:LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
在电商领域,MLLM在互动生产上已经取得了显著的阶段性成果。通过利用多种数据源和用户交互信息,MLLM在内容冷启、消费提升等方面取得了一定成果。展望未来,我们将进一步探索如何更好地结合业务目标与用户兴趣,更好地服务业务。如利用用户画像及实时反馈,生成高度个性化的互动内容,以增加用户的参与感和购买意愿。
本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
金仓赵今麦的KES RWC集群扩缩容奇遇记
金仓麦麦 前情提要:初探 RWC 秘境 上回说到,金仓赵今麦在师父的指导下成功搭建了KES RWC 三节点集群。看着监控面板上跳动的数据流,她仿佛看到了数字世界的血脉在三个节点间奔涌不息。但师父的一席话让她陷入沉思:"集群如同活物,需懂得呼吸吐纳之道。今日教你集群的'生长术'与'缩骨功'。" 回归现实。金仓数据库中默认配套了集群管理的图形化操作工具。但对于一些权限管控严格操作环境,或者操作系统以命令行模式启动,就只能使用指令对数据库集群进行管理和维护。 为了应对业务扩张和数据量增长,或者建设完善多机房、异地容灾机制,我们时常需要对数据库集群进行扩容。 Part 1. 集群生长的秘密仪式 神秘祭坛的召唤 赵今麦轻点终端,三节点的运行状态如星图般展开: [kingbase@kes1 ~]$ repmgr cluster showID | Name | Role | Status | Upstream | Location | Priority | Timeline | LSN_Lag | Connection string----+-------+---------+---------...
- 下一篇
AI猫娘·启动!
NcatBot,基于 NapCat 的 QQ 机器人 Python SDK,快速开发,轻松部署。 前言 我们 I++ 俱乐部的小伙伴一直悄悄主持维护了一个QQ聊天机器人的项目,并在最近才分享给了大家。虽然这个项目的star数还没到三位数,但在简单浏览其 README 和文档之后,我们都感到非常震撼!这个项目将QQ聊天Bot的部署成本降低到了只需要基础Python语法的地步。得益于其优秀的插件功能,你甚至可以一行代码不写,就实现诸如课程自动提醒、群聊自动参与聊天等功能。看了项目后,I++ 俱乐部的社区氛围非常活跃,大家都在积极分享和交流这个项目的使用心得。那么事不宜迟,速速开始! 效果展示 一开始就从枯燥的教学开始,太过乏味,买药之前不如先看看疗效 在我们提供的配置下,猫猫的一般最小回复间隔是10秒,如果被@到会强制回答喔 基础准备 进入 NcatBot 文档 | NcatBot 文档,点击快速开始(我已经等不及了,急急急!) 这部分内容较为小白向,如果你对自己的技术充分自信,直接跳到第二节即可 显然,你需要装一个Python,你可以从这里下载 Python Release Python...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作