基于深度学习技术的视频内容检测-低调大师

基于深度学习技术的视频内容检测

2019-12-17 960

1、背景介绍
克拉克拉（KilaKila）是国内专注年轻用户的娱乐互动内容社区软件。KilaKila 推出互动语音直播、短视频、对话小说等功能，满足当下年轻用户个性化、碎片化的文娱需求。其中短视频每天都有海量的视频素材产生，这对用户造成了严重的信息过载，难以从中自主挑选感兴趣的内容。每一位视频内容的消费者同时也是生产者，期望自己的作品能够被更多的志同道合者所看到，获得最大的曝光度。但短视频在UGC场景下出现了大量重复视频内容，该重复视频被重复曝光、重复观看，造成了用户体验较差甚至于用户流失。本文重点介绍基于深度学习CNN技术构建视频重复内容检测服务并给出该方案的工程架构。该服务上线后，重复检测准确率80%，视频内容分发提效20%。

2、图像特征描述符方法
视频内容理解的第一步便是对视频进行片段化视频帧处理，也就是随机采样。视频抽帧指用视频的关键帧表征整个视频的完整含义，针对不同类型视频编码格式、帧速率、比特率、视频分辨率以及不同种类的视频，视频的抽帧大概分为按视频固定时间间隔抽帧和基于实际图像内容抽帧，具体可细分为聚类抽帧，基于运动抽帧，基于镜头抽帧本文采取深度学习CNN模型框架对图像进行提取特征，其中并对比了目前主流模型的特征提取能力并针对特征数据进行针对训练，以便得到更好的模型参数。
传统的特征描述符方法可以清晰看到特征点的移动，有利于特征点的跟踪而对于边 (edge) 、区域 (patch) 等特征则无能为力。深度学习方法可以保留图像邻域的联系和空间的局部特点（CNN）更容易处理高维图像。对使用者而言无需知道提取的特征有哪些。大量实践表明，深度学习在提取图像特征方面有明显优势。

图一：早期判断图片相似的网络结构

3、深度学习CNN的模型选择
1）深度学习算法之图片提取特征模型（2D-CNN）
FFmpeg按照视频时间的固定间隔抽取关键帧，抽帧间隔灵活选取。利用AlexNe版本的CNN模型处理原始图片为1000维的特征向量。输入的原始数据图像需要经过深度学习模型提取图片特征，以高维数据展示并存取图片对应名称以方便后续操作。

图二：高维数据

2）深度学习算法之视频提取特征模型（3D-CNN）
FFmpeg根据视频相关参数选取合理数量的clip作为单次输入数据。利用C3D版本CNN模型获取视频特征的高维向量表达。对基于视频分析的问题，2D卷积无法有效获取时序上的信息。采用可提取三维图像特征的3D卷积模型，对clip同时还可以提取时空特征，用高维向量表示。Clip固定帧数的视频片段。

图三：2D卷积

图四：3D卷积

图五：C3D模型网络结构

3）深度学习算法之视频提取特征模型
FFmpeg根据视频相关参数选取合理数量的clip作为metadata。利用R2Plus1D版本的CNN模型获取视频特征的高维向量表达。将3D卷积分解为空间卷积和时间卷积，采用ResNet网络的基础block。相比C3D模型在不增加参数量的前提下增强了模型的表达能力。

图六：a)R3D模型卷积核；b)R2Plus1D模型卷积核；R3D模型和R2Plus1D模型网络结构

。

4、检索方法
1）哈希检索算法
此部分将CNN模型抽取出的1000维特征向量存入Redis数据库完成持久化存储，Redis数据库动态更新保存增量数据。为了保证相关特征向量的查询比对，其中的方案之一便是使用LSH算法，该算法是查询视频的高维特征向量再做高维数据空间向量的位置敏感哈希算法（ Locality-Sensitive Hashing ），即将每个视频对应的图片计算得到的特征向量实现归一化后得到每张查询视频在数据库中最相似的视频所对应的特征向量。
2）聚类算法
聚类方法避免对全空间进行搜索，而是对全空间进行分割，将其分割成若干小的子空间，在搜索的时候，锁定查询向量应该落入的子空间，在该子空间中做遍历查询。通过增加索引子类空间的个数提高搜索的精准度。

图七：特征向量聚类算法

3）矢量量化方法 (vector quantiation) 是将一个向量空间中的点用一个有限子集来进行编码表示的过程。典型的有PQ乘积量化 (Product Quantization) 和倒排乘积量化 (IVFPQ) 。PQ乘积量化：本质是一种聚类的方法。

5、视频重复内容检测服务的工程架构选择
1）视频重复性检测系统架构（2D-CNN+LSH算法）

图八：2D-CNN+LSH算法流程图

2）视频重复性检测系统架构（3D-CNN+聚类算法）

图九：3D-CNN+聚类算法流程图

微信关注我们

原文链接：https://yq.aliyun.com/articles/739779

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

案例解读|迁云的灵魂3问，降多少本，增多少效，真平滑否？

近年来，在线教育产业发展十分迅速，在线教育真正打破了时间和空间的限制，使得学员可以随时随地学习，预期2020年将有超过3000亿的市场规模。随着行业不断成熟，国家政策的规范发展使得在线教育的发展进入调整期，烧钱获客的模式不再持续，在兼顾业务发展的同时要注意成本控制。那就需要注意两大问题。一是服务器资源作为IT基础设施支出的头部预算，如何合理利用服务器资源，按需扩容，节省人力维护成本是关键。第二点是由于教育行业的特殊性，满足国家政策对于互联网教育行业安全等级保护有要求，也是重中之重。围绕这两点，阿里云提供了全面的上云解决方案，帮助客户降本增效。下面将以H教育客户为案例进行介绍。H教育客户为中小幼、考研留学及职场精英提供多元化的教育产品，包括课程直播、课程点播、互联网在线学习工具等，截止至2018年底已拥有用户接近2亿，是综合性互联网教育平台。上云如何降本——减少运维消耗是关键客户从最开始由一台放在宿舍的电脑提供服务，到现在已经拥有分布在多个机房的近千台服务器。随着业务的发展，问题也逐渐暴露，当前以自建IDC为主的模式下，资源利用率不高、部署冗余、运维和基础设备开发人力支出成本高，而且...

2019-12-16

659

云栖号：https://www.aliyun.com/#module-yedOfott8第一手的上云资讯，不同行业精选的上云企业案例库，基于众多成功案例萃取而成的最佳实践，助力您上云决策！物联网设备的爆发式增长将我们的物理世界与网络世界连接起来，使得我们的物理环境可编程，并使我们的家庭、车辆和城市陷入严重的网络安全威胁之中。隐藏物联网?但黑客可以看到! 全球连网设备的数量正以惊人的速度增长。物联网(IoT)设备目前的数量已经超过了世界人口，Gartner预计，今年晚些时候这一数字将达到142亿。物联网设备的爆发式增长将我们的物理世界与网络世界连接起来，使得我们的物理环境可编程，并使我们的家庭、车辆和城市陷入严重的网络安全威胁之中。这个问题足够大，以至于政府也必须采取行动。为了保护联邦政府免受物联网安全漏洞的侵害，并提高私营部门对物联网安全的认识，美国国会推出了《物联网网络安全改进法案》。该法案为政府购买的连网设备制定了最低安全标准，并验证使用物联网设备的所有组织普遍需要的安全措施。对许多组织来说，最大的挑战实际上并不是技术，而是思维方式的转变：人们倾向于认为安全性在于隐藏系统的...

2019-12-17

771

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。