英特尔Omni-Path让视频深度学习性能提升近百倍
Viscovery公司已经成立8年,在2010年投入影像和视频分析。目前,行业内对流量变现这个需求非常强烈,无论是过去做移动端或者云端以及现在IoT在线视频。如今视频网站生存不易,数据量非常大,它们透过CDN、透过很多基础设施提供服务,但是怎么样让视频的投资报酬率可以回收呢。Viscovery所提供一个视频分析工具重点在于可以帮助他们在广告或者电商上做好分析功能,这就是目前的主要业务。
“借助基于英特尔全新一代至强融核处理器的高性能计算能力,Viscovery首次尝试构建CPU-Only的全新架构的视频深度学习平台,在视频流识别的能效上比传统方案提升明显。”Viscovery CEO黄俊杰这样评价KNL。借助软硬件的协同整合,Viscovery能更全面、高效的服务视频与直播平台需求,将深度学习广泛应用在商业环境之中。
Omni-Path平台让视频深度学习性能提升近百倍
Viscovery对于视频处理的需求非常强烈,但一直以来都受限于服务器性能不足,只能暂时使用其他的产品替代方案来处理。受限于网络系统、内存空间的不足,过去在做大规模运算的时候存在瓶颈,使得深度网络学习的层面没有办法增加。此次英特尔推出Omni-Path这个架构之后改变了整个应用环境,它可以节省大量的处理时间。举例来讲,过去Viscovery要花一个月的处理时间,而现在两天或者三天就可以完成了,对于客户来说更具有时效性。
Viscovery CEO 黄俊杰
此次英特尔KNL新产品的推出,也充分解决了高性能计算客户应用中的几个主要瓶颈。上一代产品没有办法针对大量的矩阵数据做有效处理,所以新的KNL处理器支持AVX512指令集。它是一个指令同时可以处理32个数据,对于深度学习确实有很大的加速效果。另外,过去受限于其他替代方案内存大小的限制、能够训练的网络的大小的限制,同时并行化、规模化的时候,4台、8台机器的时候效能没有办法线性成长。英特尔新的Omni-Path的平台比过去以太网快了10倍到100倍,同时它的响应时间也快了也非常多,有效地突破了Viscovery做分散式群体深度学习运算的瓶颈。
CPU与KNL均分负载,拒绝资源闲置
易用性方面,陈彦呈表示:Viscovery一开始就与英特尔有很密切的合作。首先,在GPU运算的时候所有代码都必须重新写,相比执行新KNL用英特尔自己的编译器就可以针对AVX的指令集做优化,自动变成用AVX512指令集,所以并行化部分,对于最终用户来说更容易一些。
Viscovery首席科学家 陈彦呈博士
此外,代码编译好之后,传统上针对GPU加速的代码是没办法在CPU上面执行的,所以传统的深度学习解决方案常常是GPU满载但是CPU闲置的状态,而现在英特尔KNL可以做协处理器的形式,在一个主CPU旁边插很多KNL,同一个代码不需要重新编译就可以直接分散在不同的运算节点上做运算,这一点对Viscovery也很有吸引力。
另外,在执行层面上,现在买100台GPU的机器可能只能快30倍,但是KNL通过Omni-Path的架构能够实现线性增长,100台可以快80、90倍以上。
基于以上这些优势,KNL比较适合Viscovery的主要应用。所以一台GPU机器能够用三天完成的话,基本符合需求。但是如果真需要在一两小时内就要把顾客新的东西“训练”好,目前用英特尔KNL+Omni-Path的架构确实有它的优势。
X86架构KNL更具兼容性优势
对于KNL来说,大家可以发现“协处理器”的“协”去掉了,这是它很大的优势,在过去KNC叫Knights Corner,这个卡的形态和GPU类似,这种形态最大的问题就是需要既写一部分CPU代码也写一部分KNC代码或者GPU代码。
但这方面有很大问题,GPU、KNC运行的时候很多情况下CPU是闲置的,仅仅偶尔跑一下。对于KNL来说,做成x86兼容和至强一样,无论任何情况下都可以跑至强的代码,第一步是可以用起来,无论什么时候都不会闲置。无论是跑一个生命科学代码或者其他代码都可以。最傻瓜的方式是拿一个可执行文件,只要至强可以跑的都可以跑。
其次,如果花一两天更新工具里的重新编译选项,稍微设置一下,就可以获得不小的提升,轻松超过双路的E5 2697 v4的处理器。相比之下KNL的节点功耗只是双路至强节点的60%到70%,但是性能往往比它快40%到50%,这样一看性能功耗比就是两倍了。如果还想利用好KNL的优势,比如高达 500 GB/秒的可持续高内存带宽,那个内存非常有用,它对访存I/O密集型应用有很大的提升,包括机器学习。
大家知道高性能计算有一个测试的基准Linpack,它纯粹是考虑计算,不考虑I/O、缓存。现在通常会用HPCG来衡量HPC或者超级计算真实应用的效果。这种标准最后得出KNL更适合于真实应用场景,但是能够发现它是AVX512也需要一些编程,但要比CUDA容易很多,所用的时间也更少。并且英特尔的工具可以很容易的帮助用户发现软件里的热点,在什么地方可以扩展用AVX512,什么地方可以用很高性能的内存,这种情况下更易于开发。
GPU加速卡很久以前就早已被业界所熟悉,多年来的高性能计算机都通过其来进行“加速”,但应用编译需要耗费大量的人力、物力和时间成本,因此对于商业项目来说应用范围并不广泛。而当英特尔此次推出KNL以及Omni-Path架构之后这一情景得到了彻底改变,x86架构的东西兼容性没得说,高内存带宽带来提升也是巨大的,对于大规模密集型计算应用来说KNL确实堪称首选。
本文作者:云中子
来源:51CTO

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
软硬件配置大幅提升!解读戴尔新一代PowerEgde14服务器
7月12日,戴尔正式发布了新一代PowerEgde 14服务器,包括戴尔PowerEdge R640、 戴尔PowerEdge R740、戴尔PowerEdge R740xd、戴尔PowerEdge R940和戴尔PowerEdge C6420五款服务器新品正式推出。数据显示,基于新一代英特尔可扩展处理器的PowerEdge14服务器CPU内核方面增多了27%,内存带宽提升了50%,软硬件性能都有了大幅提升。发布会上,戴尔大中华区企业级产品市场总监周俊杰对新一代PowerEdge14服务器进行了详细的介绍。会后,笔者通过与周俊杰的沟通,对这款服务器有了更深入的了解。 强大的硬件配置带来更高效的性能 相对于上一代PowerEdge 13G服务器,新一代的PowerEdge服务器引入了NVDIMM持久内存技术、NVMe固态硬盘技术、25GB以太网技术和全新的GPU配置等,并对新一代阵列卡进行了支持。除了硬件配置之外,新一代PowerEdge 14G服务器将采用更加简单化的管理体系,让用户能够更加轻松、方便、快捷的完成对已有服务器的配置和管理。 NVDIMM持久内存技术 众所周知,在所有硬件...
- 下一篇
开放的大型机,到底有多强?
第一台大型机是由IBM研制推出,诞生于1964年,时至今日,大型机已经普遍应用于金融、制作、医疗、交通等各行各业,帮助他们快速实现信息化转型,持续提高服务水平,在日益激烈的市场竞争中充分展现自己的优势,发挥了极其重要的作用。 大型机有多强,你真的了解吗? 在云计算、大数据、移动互联的时代,X86架构的服务器成为IBM大型机的主要竞争对手。虽然,单台X86架构服务器的性能完全无法跟大型机相比,但是分布式计算系统完全可以通过大规模集群及合理的架构抵消这部分的差距。所以,很多人认为,价格昂贵的大型机,在当前的应用环境下已经不再具备任何优势,将逐渐被X86服务器替代,慢慢退出市场。 对于这类评论,笔者表示不屑。只能说,你根本就不了解大型机。与X86服务器相比,大型机的优势仍然相当明显: 其一,单台X86服务器的价格确实要比大型机便宜很多,但是,它们之间的性能差距非常巨大,一台大型机的性能相当于成千上万台X86服务器的性能,单从性能这一点来讲,X86已经完败。 其二,或许,通过大规模的X86服务器集群可以抵消与大型机的性能差距,但是,大规模X86服务器集群不但会增加部署建设的难度,并且后期的维护...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8编译安装MySQL8.0.19
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)