Google AI推出新的大规模目标检测挑战赛-低调大师

Google AI推出新的大规模目标检测挑战赛

2018-07-10 631

来源 | Towards Data Science 整理 | 磐石

就在几天前，Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。当今计算机视觉社区已经很长一段时间没有进行如此新的大规模竞赛，这对视觉研究者来说绝对是一个令人振奋的消息。

连续多年ImageNet一直是计算机视觉领域的“黄金标准型”竞赛，并且吸引了大量团队每年都参与竞争，以获得在ImageNet数据集上最低的错误率。同时，深度学习技术的突破更是使得图像识别任务取得了令人瞩目的巨大进步，甚至超过了人类的准确度。

ImageNet是一个大规模的视觉识别竞赛，有着1000个不同的类别和120万张训练图像。如此大规模的数据使ImageNet变得非常具有挑战性。通过这个比赛，除了学习到如何很好地分类图像之外，还得到了很重要的一点就是我们得到了可以用于其他视觉任务的特征提取器。在ImageNet上预训练的特征提取网络被运用到了许多其他计算机视觉任务，包括目标检测、分割和跟踪等等。此外，这些特征提取网络的设计同样也可以适用在那些其他的视觉任务上。例如，shortcut connections（跳连）最初就是来自2015年获奖的ImageNet挑战团队，并且现在已经被用于解决计算机视觉任务的大量卷积神经网络结构中。这是一件很有意义的事，大家在一个挑战赛中设计的网络可以被应用到更复杂的任务上。

ImageNet上的错误率历史记录（显示每年团队最佳结果，每年最多10个条目）

Google AI在Kaggle上推出的新一轮目标检测竞赛是正朝着这个积极方向迈进。到目前为止，COCO检测挑战一直是目标检测的重要挑战之一。但是，与ImageNet相比，它规模较小。COCO只有80个类别和330K图像。它并不能达到人们在现实世界中那么复杂的场景想要实现的目标。从业者往往也会发现在自然环境下目标检测会变得极具挑战性。相比而言，ImageNet至少有着足够大的数据集和足够多的类，它对于预训练和使用网络进行迁移学习都非常有用。也许在足够大的数据集上，训练得到的目标检测器在迁移学习时会同样有着足够好表现。

Google AI已公开发布了Open Images数据集v4版本。kaggle上由Google AI发起的比赛的数据集就是基于这个数据集，但又不是完全相同的。另外，Open Images同样遵循着PASCAL VOC，ImageNet和COCO的传统，而且规模空前。

Open Images Challenge基于Open Images数据集。竞赛训练集包括：

1.7Million训练图像，500个类别，12Million边界框标注
具有多个目标的复杂场景图像 - 每个图像平均7个标注框
高度多样化的图像，包含像“男士软呢帽（fedora）”和“雪人（snowman）”这样的全新目标
包含描述Open Images类别之间关系的类别层次结构（class hierarchy）信息

除了目标检测赛道（Google AI Open Images - Object Detection Track）之外，比赛还包括视觉关系检测赛道（Google AI Open Images - Visual Relationship Track），用于检测特定关系中的物体对。例如“女人弹吉他”，“桌上的啤酒”，“车内的狗”，“男人拿着咖啡”等等。大家可以在此处（https://storage.googleapis.com/openimages/web/factsfigures.html）找到有关数据集的更多信息。这是一个很棒的数据集，在上边的链接中你会发现它的丰富性。在这里（https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy_visualizer/circle.html）大家可以看到数据集全部600个类别的层次结构关系。大家可以观察到这是一个不均匀且非常广泛的类别分布。这意味着大家不能天真地统一对待所有类别做处理，大家需要考虑到类别的分布。这一点也更加贴近人们现实世界中的场景。这个数据集的以上特性无疑使我们更接近于创建对于自然场景更鲁棒的模型。

这个挑战赛的奖品也非常诱人，不但有着目标检测赛道30,000美元与视觉关系识别20000美元的奖金池，此外挑战赛的结果还会在2018年欧洲计算机视觉会议（ECCV2018）的研讨会上公布。ECCV2018将在德国慕尼黑举行。

这个比赛是在Kaggle上举办的，很赞。挑战的核心（kernel）往往最终成为从竞争对手看到不同方法的知识来源。如此大规模且复杂的挑战很有希望带来可以应用于计算机视觉领域的最佳研究与一些新想法，就像ImageNet一样。

希望大家在这场激烈的比赛中学到了一些新的和有用的东西，并对计算机视觉和AI的未来感到兴奋。

比赛直达链接：

[1] 目标检测（Google AI Open Images - Object Detection Track）：https://www.kaggle.com/c/google-ai-open-images-object-detection-track

[2] 视觉关系识别（Google AI Open Images - Visual Relationship Track）：https://www.kaggle.com/c/google-ai-open-images-visual-relationship-track

微信关注我们

原文链接：https://yq.aliyun.com/articles/623587

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

极课大数据：培养超级学生，不如打造超级教师

本文是阿里云创新中心“创业明星系列”第6期 “互联网+”的热潮还未退尽，“人工智能+”的浪潮已经开始涌来。本期阿里云创新中心的创业明星，就是在“人工智能+教育”赛道上的一位先行者…… 随着中国经济实力和科研力量的不断增强，大数据的应用以其精准、高效的特点，成为教育行业在DT时代的全新推动力。从2014年开始，极课大数据就在 K12 阶段大数据精准教学服务上发力，成为了全国智慧教育示范企业。与教育领域内其他注重课后教育的公司不同，极课大数据一开始就将核心应用场景锁定在了教师端。在传统的教育行业，教师每天需要投入大量的时间进行作业批改，而以教学能力为核心的教育从业者需要较高专业性，加之由于教师风格的不同，教学课程很难标准化，教育经验传递效率普遍偏低。因此，从企业创办一开始，极课大数据产品关注的问题就在于：如何利用大数据和人工智能提高教

2018-07-10

663

快了135倍。近日，上海交大的研究人员提出了切片循环神经网络（Sliced recurrent neural networks，SRNN）的结构，在不改变循环单元的情况下，比RNN结构快135倍。这种如同脚踩风火轮一般的操作，究竟是怎样实现的？在论文《Sliced Recurrent Neural Networks》中，研究人员给出了具体介绍。我们先来看看“全是重点其他免谈”的论文重点—— “曲线救国”的SRNN 传统RNN结构中最流行的循环单元是LSTM和GRU，二者都能在隐藏层中通过门控机制（Gating Mechanism）存储近期信息，然后决定这些信息将以怎样的程度和输入结合。这种结构的缺点也很明显，RNN很难实现并行化处理。 △ 传统RNN结构，A代表循环单元 | 每一步都需要等待上一步的输出结果因此，很多学者选在在NLP

2018-07-10

702

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。