中国人工智能学会通讯——人工智能与艺术 1.3 人和人工智能的不同
1.3 人和人工智能的不同 我们人是怎样感知艺术的?是通过视觉、听觉、触觉、嗅觉、味觉和直觉来感知。要让机器人拥有视觉、听觉、触觉、嗅觉、味觉这些能力并不难,但人还能够直觉感知,这对机器人来说有些难。 上图是贾里尼克给出的一个语音识别模型,这就是一个机器听到音乐的模型。计算机“听”音乐,相当于一个通信系统的信号传输过程,经过编码、传输和解码的过程完成,对于所有音乐都对应同样的反应过程。
下面讨论如何让计算机去识别视频中 行为?首先,对于很多图像视频分类问 题来讲,最核心地找到一个好的表示。 下面我们先介绍如何利用非深度学习方 法。早期做图像识别时,利用兴趣点和 局部图像特征构建视频表示,这个方法可 以被推广到视频。 这是 IJCV2005 年发 表的一篇论文,提出了 Spatial-temporal interest points 时空兴趣点,像下图中运 动员当头顶到球的时候,在这个位置和 这个时刻会形成一个识别兴趣点。
行为中包含的运动信息不仅仅是某一 个点的运动或者某一个时刻的运动,而 是一个连续的过程。因此运动轨迹可以 为行为的描述提供丰富的信息。我们可 以通过短时光流获取运动轨迹,并在视 频中去密集地跟踪一些运动轨迹,沿着 这些运动轨迹再提取一些图像区域。这 些区域通常对于运动显著性区域,运动 轨迹比原来点的描述更加丰富一些。
通常,沿着运动轨迹我们会提取三个 类型的直方图特征。第一个是 HoG 梯度 的直方图,这个是描述图像的。第二个 是光流直方图 HoF,光流是描述运动很 重要的信息,用于表示一个像素点到下 一帧图像中 x、y 方向发生的偏移。最后 一个是,MBH 运动边缘直方图。它是由 光流沿着 x 方向和 y 方向去做一次差分梯 度后获得。这样操作的好处在于可以把 物体边缘的运动提取出来。
我们会在时空信息点,或者沿着运动 的边缘,把 HoG、HoF、MBH 三种特征 都抽出来。当然除了这三类还有其他局 部特征,我们之前的一个工作就是把图 像的梯度和光流进行联合编码,实验表 明这样的方法可以提高识别率。对于给 定的一个视频,可以在视频里可能找到 很多点或者找到很多轨迹,在每个点、 每条轨迹周围提取一个三维小的立方体; 然后围绕这个立方体提取局部特征,包 括 HoG、HoF 或者 MBH;接着采用 Bag of Visual Words 框架或其改进的方法, 对局部特征进行编码,以获取全局表示。 这个过程,设计很多环节,包括特征预 处理、字典学习方法、参数的选择等, 我们的一个工作就是把这些环节涉及的 各种选择进行充分的对比,后面这个工 作也被期刊 CVIU 录用,代码也公开了。 后期不少论文引用了我们的工作。
在研究行为识别问题时,我们观察到 一个问题,对视频来讲既有静态的特征, 也有动态的特征。动态的特征像 HoF,这 些特征联合使用可以提高识别率。怎么来 用?一个简单的方法,可以把这些特征串 起来,再去学习字典。但是这个方法效果 并不好,因为串起来后特征维度高了,增 大了字典学习的难度。因此,大家传统的 做法就是,静态图像的特征和动态的光流 分别学习字典,然后分别编码,这个方法 可行性比较强,但忽略了特征间的相关性。 我们提出把不同类型的局部特征进行联合 编码,区分出共享的部分和各自独立的部 分。这就需要一个更好的字典,这个字典 不仅仅是对一种特征,而是对多种特征进 行联合建模。
这里我们利用混合概率典型相关分析 模型作为我们的字典。该字典可以对不 同类型特征间相关部分和独立部分进行 建模。实验表明,该方法可以提高识别率。
除此之外,我们还有其他工作,简单的 分享一下。之前这些局部描述的一个缺陷就 是仅仅描述局部区域能力有限,所以我们提 取中层运动子 Motionlet 特征,这个中层特 征是靠机器学习的方法从视频数据中学习获 得的。我们还根据中层运动子特征构建运动 词组 Motion Phrase,细节可以参见我们发表 在 CVPR13 和 ICCV13 的论文。
微信关注我们
转载内容版权归作者及来源网站所有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。
为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。
Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。
Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。