iGear 用了这个小魔法，模型训练速度提升 300%-低调大师

iGear 用了这个小魔法，模型训练速度提升 300%

2022-02-07 559

一个高精度AI模型离不开大量的优质数据集，这些数据集往往由标注结果文件和海量的图片组成。在数据量比较大的情况下，模型训练周期也会相应加长。那么有什么加快训练速度的好方法呢？

壕气的老板第一时间想到的通常是提升算力，增加资源。

如果足够有钱的话，基本不需要再继续看其他解决方案了。

但大多数情况下，面对昂贵的算力资源，我们不可能无限增加的。那在花了大价钱买到了有限资源的情况下，我们还可以通过什么方式加快模型训练，提高资源利用率呢？

本文将为大家介绍的就是 iGear 高性能缓存加速方案，我们先看一张简单的AI工作全流程服务示意图。

采集的数据通过 iGear 数据中台的筛选预处理、iGear 标注平台的标注后会形成优质训练数据集，这些数据集会流转到 iGear 训练平台来训练算法模型。 iGear 训练平台基于 Kubernetes 集群完成异构计算资源调度。在这个架构体系中计算和存储是分离的，数据集会放在远端的对象存储集群中，当运行模型训练任务时就需要访问远程存储来获取数据集，带来较高的网络 I/O 开销，也会造成数据集管理不便的问题。

本文提出的 iGear 高性能缓存加速方案要做的就是：

1.如何降低 I/O 开销，提高训练效率和 GPU 利用率？

2.如何管理数据集，提高用户易用性和便利性？

缓存方案概述

前文已经提及，数据集是存储在远端的对象存储集群中的。为了提高数据集的易用性，常用方案是用 fuse 方式挂载给到训练任务，方便用户以普通文件目录的方式识别并使用数据集。这种方式虽然满足了易用性，但高 I/O 的开销使得用户必须手动或者用脚本的方式将数据集提前同步到计算节点，这会增加用户在训练过程中的心智负担。针对上述问题，我们对训练数据集做了优化，当用户开始准备训练时，通过 JuiceFS 实现数据集缓存引擎，为用户提供数据集缓存和预热功能，这既可以降低对远端对象存储的访问，又可以减少用户操作。充分利用计算集群本地存储来缓存数据集，通过两级缓存（训练节点的系统缓存+训练节点的磁盘缓存），加速模型训练速度，一定程度上也能提高 GPU 的利用率。

JuiceFS 是一款开源的面向云环境设计的高性能共享文件系统，在数据组织管理和访问性能上进行了大量针对性的优化，社区版本也有非常好的文档支撑，这里就不赘述了。

缓存方案测试

测试方案

我们之前使用的方案是使用 fuse 的方式直接挂载对象存储系统，将 S3 的 bucket 通过挂载的方式挂载到本地，提供访问远端对象存储数据的能力。优化后的高性能缓存加速方案，后端也是基于对象存储，只是在此基础之上提供了缓存、预热等功能，优化了存储的性能。基于此我们做了以下两组对比实验，两组实验都是基于同一套对象存储，且其它条件保持一致。

开启或关闭高性能缓存加速的性能对比

使用高性能缓存加速方案和使用 fuse 挂载的性能对比

测试方式

在服务器物理机环境下，我们使用 PyTorch /examples 仓库中提供的 ResNet50 v1.5 进行模型训练，对其进行单机单卡、单机多卡的结果复现，同时对比执行过程花费的时长。

测试环境

硬件：Tesla V100-SXM2-32GB
驱动：Nvidia 450.80.02
操作系统：Ubuntu 20.04.1 LTS
测试工具：PyTorch ResNet50 v1.5提供的脚本
数据集：ImageNet

实验一：开启高性能缓存加速 VS 关闭高性能缓存加速

ResNet50 v1.5 batch_size = 128, worker=8

从上图可以看出，在没有缓存的情况下，训练任务处理的图片数并没有随着算力的增加而明显变化，说明已经到了 I/O 瓶颈阶段。而使用缓存后，随着算力的增加，处理的图片数也相应增加。这证明使用缓存加速后，大大降低了 I/O 开销，同等算力情况下，训练速度也有了很大提升，其中单机 1 卡的训练速度提升了 22.3%，单机 4 卡的速度提升了 218%，单机8卡的速度提升了 **230% **。

从模型训练时间角度来看，训练时间从未使用缓存加速的 1381 min 降低到 565 min，只用了原来 1/3 的时间就完成了模型训练。

第一组实验对比了数据集缓存前后的性能差异，验证了使用高性能缓存方案来加速 iGear 训练任务的必要性。

实验二：高性能缓存加速 VS fuse挂载

当前较为通用的方案是采用 fuse 的方式来挂载远端的对象存储到本地，提供用户对数据集的访问请求。为了对比目前普通 fuse 挂载的方案和高性能缓存加速的优化方案，我们设计了第二组实验：

ResNet50 v1.5 batch_size = 128, worker=8

从模型训练时间角度来看，fuse 挂载方案训练时间为 1448 min，高性能缓存加速优化方案可将训练时间减少到 565 min，将近 fuse 挂载方案的 1/3。

因此，相比于传统直接使用对象存储，我们的高性能存储在训练速度上和训练时间上都有大幅度的提升。

第二组实验对比了不同方案下的模型训练时间，验证了使用高性能缓存方案来加速 iGear 训练任务的重要性。

结论

面对昂贵且有限的算力资源，我们可以通过高性能缓存加速方案去大幅加速 iGear 平台上训练任务的速度，极大地缩短模型训练时间，同时提高了 GPU 资源的利用率。如果算力进一步提升，收益也不仅仅止步于当前的测试环境。

本文作者：iGear老司机，原文地址：https://mp.weixin.qq.com/s/Lh5UEVw4-gCe6wAVcmznxg

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟！ (0ᴗ0✿)

微信关注我们

原文链接：https://my.oschina.net/u/5389802/blog/5433177

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Bean Searcher 发布 v3.4.0 版本

大家支持一个 Star 吧 https://github.com/ejlchina/bean-searcher/releases https://gitee.com/ejlchina-zhxu/bean-searcher/releases

2022-02-09

528

摘要：本文将为读者分享华为云是如何做到以“1天一朵云”（软装）的速度把全栈云平台大批量低成本复制到客户的数据中心，为客户修建数字化转型的高速公路。本文分享自华为云社区《【华为云Stack】【大架光临】第9期：高效建云，一天一朵云背后的故事》，作者：华为云Stack工程架构领域架构师魏世江。摘要在国家“十四五”规划和2035年远景目标纲要中，明确提出“加快数字化发展建设数字中国”的战略目标。云计算以“一切皆服务”的理念，为用户提供了像水电一样可按需获取的计算、存储、网络资源以及大量成熟的AI、大数据、应用治理等高阶服务，已成为数字经济、数字社会、数字政府的重要基础设施，是政企数字化转型、业务创新过程中至关重要的一环。而作为数字经济的基座，云计算被明确列入“十四五”纲要“数字经济重点产业”名录。云计算虽然极大加快了业务创新的效率，但是由于云平台自身固有的复杂性，其初期建设过程一般涉及机房建设、IT设备采购、设备配置、云平台软件部署等多个环节，建设周期较长，有可能成为影响数字化转型落地节奏的重要因素。如果说“数字化经济”是一座大型商场，那么云平台就是商场的大楼及其附属配套设施，...

2022-02-08

651

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。