CVPR 2018 最具创意论文 TOP10-低调大师

CVPR 2018 最具创意论文 TOP10

2018-07-18 610

每年计算机视觉与模式识别会议（CVPR）都会带来杰出而有趣的研究，今年在美国盐湖城举办的CVPR 2018也不例外。
CVPR 2018上许多论文提出了全新的深度神经网络在视觉上的应用，它们可能不是最根本的、具有突破性的工作，但它们非常有趣，从新的角度为人们提供了创造性和启发性的想法，而且有些想法很酷！下面是笔者认为的CVPR 2018中最酷的10篇论文，让我们来看看吧！

Super SloMo：视频插值中多幅中间帧的高质量估计

论文地址：

https://arxiv.org/abs/1712.00080

你有想过用超级慢动作拍摄一些超级酷的东西吗？不妨看看英伟达（Nvdia）的 Super SloMo 吧！他们的卷积神经网络估计出视频中间帧，并且能够将标准的 30fps 的视频转换为看上去惊人的 240fps 下的慢动作！模型估计帧间光流，使用该模型还可以不影响画质地插入视频帧，从而慢镜头看上去也是清晰的。

WISPE：数码相机弱监督照片增强器

论文地址：

http://www.vision.ee.ethz.ch/~ihnatova/wespe.html

真是机智啊！他们训练生成对抗网络（GAN）来自动美化照片。最酷的部分是它是弱监督的，你不需要输入-输出图像对！你训练的网络需要的是一组“好看”的图像（对于输出的标注图像）和一组你想要增强的“难看”的图像（对于输入图像）。然后，对 GAN 进行训练以产生输入图像的美化后的版本，通常极大地增强图像的颜色和对比度。

它是快速并且容易使用的，因为你不需要精确的图像对，最后你会得到一个“通用”的图像增强器。我也喜欢这种弱监督的方法。无监督的学习似乎相当遥远。但是对于计算机视觉中的许多子领域来说，弱监督似乎是一个有前途、有利可图的方向。

谁在控制狗？根据视觉数据对狗的行为建模

论文地址：

https://arxiv.org/abs/1803.10827

这可能是有史以来最酷的研究论文名字！它的思路是尝试并建模狗的所行所想。作者在狗的四肢安装了大量的传感器来收集它的运动数据，也在其头部安装照相机来获取狗看世界的第一视角。使用了一组卷积神经网络特征提取器来提取从视频帧中得到的图像中的特征，然后这些特征就和传感器数据一起传到一组长短期记忆网络，来学习和预测狗的行为。这是一个很新颖且具有创造力的应用。这个任务独特的框架和实现，都让这篇文章值得一读！希望这篇文章可以给未来的研究激发创造力，不管是对我们采集数据的方式还是深度学习技术的应用。

在笔记本上亲临球赛

论文地址：

https://arxiv.org/abs/1806.00890

在世界杯进行之际，这篇论文的发布可以获得最佳时机奖了！这真的是 CVPR 计算机视觉里比较酷的应用之一。简单地说，给定一个足球比赛视频能够输出比赛的三维动态重建，从而训练模型。这就意味着你可以使用增强现实技术在任何地方观看这场比赛！

模型比较机智的地方在于不同类型信息的结合使用。使用视频比赛数据训练网络，根据这些数据可以非常轻易地提取三维网格。测试时，运动员的边界框、姿态和轨迹（在多帧之间）被提取来对其进行分割。这些三维分割可以简单地投影到任意空间（这样你就可以任意制作虚拟球场）实现增强现实的足球比赛观看！在我看来，使用合成数据来训练时很聪明的做法，同样也是很有趣的应用！

LayoutNet：从单幅彩色图像实现房间布局的三维建模

论文地址：

https://arxiv.org/abs/1803.08999

我们中大多数有都有过这样的想法：给某个东西拍张照片，然后在数字三维对其进行重建。这篇论文就是一个计算机视觉的应用，也正好是来实现这个想法的，尤其是对房间的三维重建。他们将全景图像作为输入来获得房间的整个视野，输出就是一个非常精确的三维重建的房间布局！这个模型有足够的能力来生成不同形状的房间，房间中可以包含许多不同的家居摆设。这个应用非常有趣，不用看大量计算机视觉研究员的工作，可以很好地阅读。

Polygon-RNN++ 分割数据集的高效交互标注

论文地址：

https://arxiv.org/abs/1803.09693

深度网络工作得如此好的一个主要原因是有大量和完全注释的数据集可供使用。然而，对于许多计算机视觉任务来说，这样的数据既耗时又昂贵。特别是分割数据需要图像中的每个像素的类标记。正如你所想象的…对于大数据集来说，这个过程可能永远持续下去！

Polygon-RNN++ 允许用户在图片中每个目标周围设置粗略的多边形，然后神经网络会自动生成分割标记。这篇论文很好地论述了这种方法，这种方法也可以在分割任务中创建快速、简单的标记。

在时尚大片中创造胶囊衣柜

论文地址：

https://arxiv.org/abs/1712.02662

我今天应该穿什么呢？如果每天早上都有人或东西来回答这个问题而不需要你去想，那该有多好啊。如果想拥有这样的东西，来认识一下胶囊衣柜（Capsule Wardrobes）吧。

这篇论文作者设计了一个模型，给定一个待选服装和饰品的清单，胶囊用最少的物品组成物品集，而这个集合可以提供最多的混搭配备。模型使用目标函数进行基本的训练，而目标函数的设计是用来获取视觉兼容性、多功能性和用户特定喜好的关键因素。使用胶囊衣柜，可以轻松地从你的衣橱里找到符合你品位的最佳搭配。

利用综合数据训练深度网络：通过域随机化来弥补现实差距

论文地址：

https://arxiv.org/abs/1804.06516

这篇论文来自英伟达（ NVIDIA ）。它在使用合成数据来训练卷积神经网络（CNNs）上获得长足进步。它为 Unreal Engine 创建了一个插件，用于生成合成的训练数据。真正的关键是它们将训练数据的变量随机化，包括：

对象的数量和类型

干扰项的数量、类型、颜色和尺度

感兴趣物体的纹理和背景照片

虚拟摄影机相对于场景的位置

摄像机相对于场景的角度

点光源的数量和位置

他们展示了一些大有前途的结果，证明了用合成数据进行预训练的有效性。这个结果是以前没有达到。如果你缺少一些重要资源，它可能会对如何生成和使用合成数据有所帮助。

学习分割一切

论文地址：

https://arxiv.org/abs/1711.10370

最近几年，何凯明团队（早先在微软亚洲研究院，现在在 Facebook 人工智能研究实验室）进行了大量的计算机视觉研究。他们文章的厉害之处就在于将创新性与简洁性有效结合。 ResNets 和 Mask R-CNN 都不是最疯狂、最复杂的研究思路。它们都非常简单、易于实现，在实践中也非常有效。这一篇也是一样。

学习分割一切是 Mask R-CNN 的扩展，使得神经网络在训练过程中不看见类也能进行分割！这对快速、低成本获取数据集标记十分有效。它可以获得不可见目标类强大的基准库分割，这对在野外部署分割神经网络是十分重要的，因为在那样的环境中，存在着大量的不可见目标类。整体看来，这是我们朝着如何思考最大限度利用深度神经网络模型正确方向走了一步。

学习转换架构实现可扩展图像识别

论文地址：

https://arxiv.org/abs/1707.07012

最后但也重要的就是关于深度学习的未来的思考：神经架构搜索（NAS）。 NAS 背后的基本思想是取代手动设计网络架构，我们可以采用另外的神经网络来 “搜索”最好的模型结构。这个搜索基于回报函数，是很聪明的。回报函数对那些在验证数据集上表现良好的模型进行奖励。作者在文中展示了一个比手动设计更加精确的架构。这在未来是有很大发展空间的，尤其是特定应用的设计。因为我们只需要将全部精力放在设计好手动设计 NAS 算法，而不是为我们特定的应用设计特定的网络。一个良好设计大的 NAS 算法是足够灵活的，可以为任意特定任务找到好的网络。

原文发布时间为：2018-07-18
本文来自云栖社区合作伙伴“计算机视觉life”，了解相关信息可以关注“计算机视觉life”

微信关注我们

原文链接：https://yq.aliyun.com/articles/614416

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

老牌商超靠什么逆袭成为新零售标杆？

作为一家成立20多年的老牌零售企业，联华华商的IT系统，曾经拖后腿影响到门店的正常营业。而今，联华华商在阿里云上实现了业务和运营创新，甚至进军智能超市。是什么让联华华商成为了玩转云计算的标杆？老牌连锁超市，饱受业务系统压力之苦联华华商成立于1997年，以大中型超市为业态定位，拥有“天华世纪城”、“世纪联华”、“联华”、“CITYLIFE”等品牌，在浙江省内拥有门店达230余家，已连续18年位居浙江省内连锁超市前列。作为浙江省内销售规模最大的连锁企业，随着超市门店客流量越来越多，门店业务系统压力也随之越来越大，线下系统升降配不灵活、成本偏高，已经无法满足门店的日常需求，个别流量较大的门店系统压力持续维持在高位，风险很大。线下数据库人力维护成本高，性能差，也一定程度影响了门店的正常营业，整体可用性亟待提升。此外，会员等相关系统是结账

2018-07-17

569

当人工智能走到科技和人文的十字路口，它会迸发出怎样的能量？你会发现，以往没有任何一个时期，会比现在的人工智能距离我们更近，因为它正在以一种近乎革命性的手段解决生活中真实存在的难题。现在，有一个棘手的问题摆在中国文物保护基金会面前：如何修缮一段年代久远，已经是残垣断壁的箭扣长城？如果是按照传统的方法，无论是勘测、测量、后期的处理，只能凭借人力用尺子、全站仪完成，耗时耗力，尤其是箭扣长城大多位于险峰断崖之上，周边草木茂密，人员想要到达施工现场可谓险阻重重。另外，传统的手工测量无法反映长城的全貌和细节，不利于保护单位做更精确的维修方案。如今，“人工智能助力修缮箭扣长城”的项目已经在英特尔中国研究院、英特尔数据中心事业部，以及武汉大学测绘遥感国家重点实验室的合作下开展。新的方法可以数字化还原长城修缮前后的状态，有利于修缮保护以及进一步研究。有了英特尔的人工智能技术的参与，箭扣长城以及更多长城的保护工作将跨越到新的高度。如何用英特尔AI助力长城修缮，主要分三个步骤来进行： 1、采集高精度图像在箭扣长城保护项目中，使用英特尔最新款猎鹰8+无人机，对城墙进行长城整体和局部的航拍和精确成像。...

2018-07-18

574

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。