打开即用的预训练模型，轻松实现大规模视频分类？-低调大师

打开即用的预训练模型，轻松实现大规模视频分类？

2020-07-09 775

至2020年3月，我国短视频用户规模为7.73亿，占网民整体的85.6%，每天有大量 UGC 短视频被生产、分发和消费。如果你是一名短视频用户一定会发现，这些 App 总是特别懂你的心思，比如一些美食短视频就总能在合适的时间、推荐合适的菜谱，让小伙伴们不必为晚餐吃什么而发愁。让你不仅暗自感叹，它为什么如此懂自己？

之所以这些短视频 App 可以如此懂自己，得益于人工智能的视频分类技术。高效的视频分类技术让信息的分发更快地触及目标人群，让 App 变得更有温度。

面对海量的视频数据，如何推荐用户感兴趣的视频？

互联网视频分类任务的目标是理解视频的语义，并给视频打上标签，标签包括不限于美食、旅游、影视、游戏等等。标签越精细、在视频分发和推荐时，准确率越高。

熟悉深度学习的同学们都知道，数据集对于算法的研究起着非常重要的作用。对于视频分类任务而言，网络上虽然有大量用户上传的视频数据，但它们大多缺少类别标签，无法直接用于模型训练。在学术界，Kinetics 系列是最热门的视频分类数据集，但其数据量（以Kinetics-400为例，包含23万个视频）与当前国内主流APP的数据量（千万/亿/十亿量级）相比较，也是云泥之别，且视频内容与互联网短视频也存在较大差异。

此外，视频中包含成百上千帧图像，处理这些帧图像需要大量的计算。基于 TSN、TSM、SlowFast 视频分类模型，使用 Kinetics-400 数据，模型训练大概需要1周才能达到70%~80%的Top-1精度，面对上千万的数据量，显然学术界模型是无法实现产业应用的。

飞桨大规模视频分类模型 VideoTag 基于百度短视频业务千万级数据，在训练速度上进行了全面升级；支持3000个源于产业实践的实用标签；引入 ActivityNet 冠军模型 Attention Cluster 等，在测试集上达到90%的精度；具备良好的泛化能力，非常适用于国内大规模（千万/亿/十亿级别）短视频分类场景的应用。

当前飞桨 VideoTag 模型全面开源开放，欢迎感兴趣的企业和开发者试用，

如果您想使用 PaddleHub 快速实现模型预测（VideoTag 预训练模型已经集成到PaddleHub中），Gitee地址：https://gitee.com/PaddlePaddle/PaddleHub/tree/release/v1.7/hub_module/modules/video/classification/videotag_tsn_lstm

如果您想 Fine-tune 或了解更多的 VideoTag 模型实现细节，可以下载模型完整代码，Gitee地址：https://gitee.com/PaddlePaddle/models/tree/develop/PaddleCV/video/application/video_tag

除此之外，飞桨还为开发者和各类企业提供了更多人工智能的产业实践，填写下方的表单，即可详细了解您企业所在的行业如何使用飞桨让业务更上一层楼：https://jinshuju.net/f/zL637q

飞桨大规模视频分类是如何实现的？

考虑到国内主流APP视频数据量巨大，为了提升模型训练速度，VideoTag采用两阶段建模方式，即图像建模和序列学习。第一阶段，使用少量视频样本（十万级别）训练大规模视频特征提取模型；第二阶段，使用千万级数据进行序列学习，最终实现在超大规模（千万/亿/十亿级别）短视频上产业应用，其原理示意如下图所示。

之所以这些短视频 App 可以如此懂自己，得益于人工智能的视频分类技术。高效的视频分类技术让信息的分发更快地触及目标人群，让 App 变得更有温度。

面对海量的视频数据，如何推荐用户感兴趣的视频？

互联网视频分类任务的目标是理解视频的语义，并给视频打上标签，标签包括不限于美食、旅游、影视、游戏等等。标签越精细、在视频分发和推荐时，准确率越高。

熟悉深度学习的同学们都知道，数据集对于算法的研究起着非常重要的作用。对于视频分类任务而言，网络上虽然有大量用户上传的视频数据，但它们大多缺少类别标签，无法直接用于模型训练。在学术界，Kinetics 系列是最热门的视频分类数据集，但其数据量（以Kinetics-400为例，包含23万个视频）与当前国内主流APP的数据量（千万/亿/十亿量级）相比较，也是云泥之别，且视频内容与互联网短视频也存在较大差异。

此外，视频中包含成百上千帧图像，处理这些帧图像需要大量的计算。基于 TSN、TSM、SlowFast 视频分类模型，使用 Kinetics-400 数据，模型训练大概需要1周才能达到70%~80%的Top-1精度，面对上千万的数据量，显然学术界模型是无法实现产业应用的。

飞桨大规模视频分类模型 VideoTag 基于百度短视频业务千万级数据，在训练速度上进行了全面升级；支持3000个源于产业实践的实用标签；引入 ActivityNet 冠军模型 Attention Cluster 等，在测试集上达到90%的精度；具备良好的泛化能力，非常适用于国内大规模（千万/亿/十亿级别）短视频分类场景的应用。

当前飞桨 VideoTag 模型全面开源开放，欢迎感兴趣的企业和开发者试用，

如果您想使用 PaddleHub 快速实现模型预测（VideoTag 预训练模型已经集成到PaddleHub中），Gitee地址：https://gitee.com/PaddlePaddle/PaddleHub/tree/release/v1.7/hub_module/modules/video/classification/videotag_tsn_lstm

如果您想 Fine-tune 或了解更多的 VideoTag 模型实现细节，可以下载模型完整代码，Gitee地址：https://gitee.com/PaddlePaddle/models/tree/develop/PaddleCV/video/application/video_tag

除此之外，飞桨还为开发者和各类企业提供了更多人工智能的产业实践，填写下方的表单，即可详细了解您企业所在的行业如何使用飞桨让业务更上一层楼：https://jinshuju.net/f/zL637q

飞桨大规模视频分类是如何实现的？

考虑到国内主流APP视频数据量巨大，为了提升模型训练速度，VideoTag采用两阶段建模方式，即图像建模和序列学习。第一阶段，使用少量视频样本（十万级别）训练大规模视频特征提取模型；第二阶段，使用千万级数据进行序列学习，最终实现在超大规模（千万/亿/十亿级别）短视频上产业应用，其原理示意如下图所示。

让我们看看模型预测的结果：

模型取出了排名较前的几个分类结果，分别是“训练”、“蹲”、“杠铃”、“健身房”。其中分类的置信度均超过了0.8，网络预测出来的标签也和事实相一致。

API预测

PaddleHub提供了更加灵活的API预测方式，可以同时处理多个文件。

import paddlehub as hub
videotag = hub.Module(name="videotag_tsn_lstm")
# 一行代码完成模型预测，paths可接收多个自定义文件路径
results = videotag.classify(paths=["1.mp4","2.mp4"], use_gpu=False) 
print(results)

示例的2.mp4的内容截图如下所示：

模型取出了分类结果“舞蹈”，分类的置信度均超过了0.85，网络预测出来的标签也和事实相一致。

事实上，该模型对场景的预测标签有多达3396种，包括了如超市、实验、机场等地点，或者是医生、教师等人物。可以说，这些标签足够达到我们日常小视频分类的要求，能够很好的处理我们需要的场景。

无论您是从业者、学生或者深度学习爱好者，在大规模短视频分类任务上，有飞桨 VideoTag 预训练模型加持，都会有助于产品用户体验的提升，增加用户粘性。

除此之外，飞桨还为开发者和各类企业提供了更多人工智能的产业实践，填写下方的表单，即可详细了解您企业所在的行业如何使用飞桨让业务更上一层楼：https://jinshuju.net/f/zL637q

微信关注我们

原文链接：https://my.oschina.net/u/4570368/blog/4345666

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

物联网的基石-mqtt 协议初识

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！随着 5G 时代的来临，万物互联的伟大构想正在成为现实。联网的物联网设备在 2018 年已经达到了 70 亿1，在未来两年，仅智能水电气表就将超过10亿2。海量的设备接入和设备管理对网络带宽、通信协议以及平台服务架构都带来了很大挑战。对于物联网协议来说，必须针对性地解决物联网设备通信的几个关键问题：其网络环境复杂而不可靠、其内存和闪存容量小、其处理器能力有限。 MQTT 协议是基于发布/订阅模式的物联网通信协议，凭借简单易实现、支持 QoS、报文小等特点，占据了物联网协议的半壁江山： MQTT 协议的诞生 MQTT was created by Andy Stanford-Clark of IBM, and Arlen Nipper (then of Arcom Systems, later CTO of Eurotech).^3 据 Arlen Nipper 在一 IBM Podcast 上的自述，MQTT 原名是 MQ TT，注意 MQ 与 TT之间的空格，其全称为: ...

2020-07-08

807

本项目 Github:https://github.com/midwayjs/midway，开源是为了给前端和 Node.js 的发展献一份力，还请到 Github 体验一下，并且帮忙点个 Star~🙇‍♂️感谢~ 上一篇大家对 50% 的数字有疑问，这一次作为后续，我们做一个回答和总结。去年开始，阿里前端及集团多个团队联合开始了一项“秘密”任务，使用 Serverless 这一新一代研发架构，希望能大量减少研发人员使用基础设施和运维的成本。为什么是 Midway Serverless？ Midway 之前是传统的 Web 栈框架，和业界现有的 EggJS，NestJS 等解决的是类似的问题，从中后台到移动端应用，前端都广泛采用了这些框架来构建自己的业务系统。阿里集团也不例外，Node.js 应用非常之多，但是这些系统有一个共性，大多数服务器的 CPU 使用率非常低，这无疑是一种资源的巨大浪费。这种资源浪费的常态以及应用的规模化几何倍数的增产，让应用治理的人员头疼不已。伴随着去年集团 Serverless 架构在实际应用的诉求，让我们前端看到了希望。正因为如此，集团 Midw...

2020-07-09

904

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。