阿里AI打破视觉对话识别纪录，机器看图说话能力比肩人类-低调大师

阿里AI打破视觉对话识别纪录，机器看图说话能力比肩人类

2019-06-26 811

近日，在第二届视觉对话竞赛Visual Dialogue Challenge中，阿里AI击败了微软、首尔大学等十支参赛队伍，获得冠军。

（阿里AI在视觉对话竞赛中得冠）

视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室（FAIR）等机构联合全球视觉技术领域顶级学术会议CVPR发起，是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后，回答出人类对于任一图片任一内容的提问。竞赛结果显示，阿里AI以74.57%的准确率获得冠军，将上一届比赛的纪录提高了16.82%。在相同的数据集中，人类的准确率仅为64.27%。

传统的视觉AI主要针对目标的检测和识别，例如识别出图片是否是一只猫，但对复杂场景中目标之间的逻辑关系理解、推理能力较弱，无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题，也难以将图片

微信关注我们

原文链接：https://yq.aliyun.com/articles/706614

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

语音识别（ASR）基础介绍第二篇——万金油特征MFCC

上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中，发现基本上遇到的资料都避不开MFCC特征。整个ASR的处理流程大致可以分为下图：左侧是经典的处理流程，右侧是近期流行的流程。发生的变化是，将语言模型以下的部分变成端到端的了。我们将语言模型以下的部分统一看成是声学模型就好。而MFCC主要用在左侧的处理流程中，即“特征处理”的输出结果。虽然可以看成，端到端的声学模型出来后，我们已经不需要MFCC了，直接输入音频即可。不过这并不意味着MFCC就没用了。在“根据发音确认发音人身份”等许多领域，MFCC还是个很短平快切粗暴有效的特征。由于MFCC的重要性，和asr相关专业的人士交流时，最好是能提前具备此共识。 MFCC 细节介绍： MFCC给人的感觉像是孟德尔遗传定律。在人们还并不确定人耳是如何解析声音的时候，假设了这是一个傅里叶变换后的频域处理过程。然后，最近的医学研究成果表明，人耳也确实大致是这么工作的，对应的器官名字叫耳蜗，或蜗牛。 MFCC虽然名字就4个字母，但其实是集成了很多很多的思考和假设在里面。了解过之后，你就不会再后悔大学数学的卷积操作毛用都没有...

2019-06-24

1334

雷锋网 AI 科技评论按：今天，谷歌的 Dropout 专利生效这一消息突然在圈内传开，而生效日期就在 6 月 25 日，有效期 15 年。三年前，谷歌就给 Dropout 申请了专利，但因为此举引发了业界众多异议，最最后无疾而终。只是令人没想到时隔三年，这一专利申请竟然生效了。雷锋网 AI 科技评论将这一事件整理报道如下。何为 Dropout？但凡是接触过机器学习的人士，一定知道 Dropout。它是在进行深度学习、训练神经网络时，普遍会用到的方法，也是调参的一种手段，可以有效防止过拟合。由 Hinton 在 2012 年的论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出。而在随后 Alex 和 Hinton 的论文《ImageNet Classification with Deep Convolutional Neural Networks》中，则用 Dropout 算法来防止过拟合。论文中的 AlexNet 网络模型瞬间引爆神经网络应用热潮，并赢得了 2012 ...

2019-06-26

648

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。