关于远程直接内存访问技术 RDMA 的高性能架构设计介绍-低调大师

关于远程直接内存访问技术 RDMA 的高性能架构设计介绍

2023-07-31 389

编者按：传统以太网方案存在系统调用消耗大量时间、增加数据传输延时、对 CPU 造成很重的负担三个缺点，而 RDMA 技术可以解决以上三个缺点。那 RDMA 究竟是什么？它的方案的设计思路是什么？今天，浪潮信息驱动工程师刘伟带大家深入理解 RDMA 技术的基本原理，交流在工程上的设计思路。本文整理自龙蜥大讲堂 83 期，以下为本次分享内容：

01 RDMA技术的优点、基础知识和设计思路

RDMA 和传统网络方案的比较

传统以太网方案存在三个缺点：send/sendto 等系统调用导致 CPU 在用户态和内核态之间切换，消耗大量时间；发送过程中需要 CPU 把数据从用户空间复制到内核空间（接收时反向复制），增加了数据传输延时；需要 CPU 全程参与数据包的封装和解析，在数据量大时将对 CPU 将造成很重的负担。

RDMA 技术可以解决上述三个问题：首先，其在数据传输过程中没有系统调用；然后，在系统内存内部做到零拷贝，省掉了数据在用户空间和内核空间之间拷贝的步骤。最后，把数据包的封装和解析交由网卡硬件来做，降低了 CPU 负载。

RDMA 协议类型

RDMA 指的是一种远程直接内存访问技术。具体到协议层面，它主要包含了Infiniband（IB），RDMA over Converged Ethernet（RoCE）和Internet Wide Area RDMA Protocol（iWARP）三种协议。三种协议都符合RDMA标准，共享相同的上层用户接口（Verbs），只是在不同层次上有一些差别。

RDMA 软件架构

RDMA 的软件架构按层次可分成两部分，即 rdma-core 和内核 RDMA 子系统，分别运行在 Linux 系统中的用户态和内核态。整个软件架构适用于所有类型的 RDMA 网卡，不管网卡硬件执行了哪种 RDMA 协议（Infiniband/RoCE/iWARP）。

RDMA 基本元素和操作类型

WQE（Work Queue Element，工作队列元素）的作用类似于以太网方案中收发队列里的描述符（Desc）。其中包含了软件希望硬件去做的任务类型（远程读、远程写、发送还是接收等）以及任务的详细信息（数据所在的内存地址、数据长度和访问密钥等）。

WQ（Work Queue，工作队列）类似于以太网方案中的发送/接收队列，WQ 里面可以容纳很多 WQE，这些 WQE 在 WQ 中以先进先出（FIFO）队列的形式存在。左图展示了 WQ 和 WQE 的关系，以及它们和以太网方案中队列和描述符功能的比较。

QP 是一个发送工作队列和一个接受工作队列的组合，这两个队列分别称为 SQ（Send Queue）和 RQ（Receive Queue）。SQ 和 RQ 都是一种 WQ。SQ 专门用来存放发送任务，RQ 专门用来存放接收任务。在一次 SEND-RECV 流程中，发送端需要把表示一次发送任务的 WQE 放到 SQ 里面（这种操作称为 Post Send）。同样的，接收端需要把表示一次接收任务的 WQE 放到 RQ 里面（称为Post Receive），这样硬件才知道收到数据之后放到内存中的哪个位置。在RDMA技术中，通信的基本主体或对象是 QP，而不是节点。对于每个节点来说，每个进程都可以申请和使用若干个 QP，而每个本地 QP 可以“连接到”一个远端的 QP。每个节点的每个 QP 都有一个唯一的编号，称为 QPN（Query Pair Number），通过 QPN 可以唯一确定一个节点上的 QP。

CQ 意为完成队列（Completion Queue）。跟 WQ 中含有很多 WQE 类似，CQ 这个队列中也有很多元素，叫做 CQE（Completion Queue Element）。可以认为 CQE 跟 WQE 是相反的概念。如果 WQE 是软件下发给硬件的任务，CQE 就是硬件完成任务之后返回给软件的“完成报告”。每个 CQE 都包含某个 WQE 的完成信息。

RDMA WRITE 操作是一端应用主动写入远端内存的行为，除了准备阶段，远端 CPU 不需要参与，也不感知何时有数据写入、数据在何时接收完毕。所以这是一种单端操作。需要注意的是，操作发起端的应用程序是通过虚拟地址来读写远端内存的，上层应用可以非常方便的对其进行操作。实际的虚拟地址—物理地址的转换是由 RDMA 网卡完成的。

RDMA 方案的设计思路

下图中横向箭头表示的是某应用程序执行的步骤。每个步骤中下行的箭头和方框表示当前这个步骤的简要实现流程。

RDMA 实现方案的设计思路中比较重要的三点：初始化和配置等低频操作可以进入内核态执行；数据传输等高频操作旁路内核；独立的 QP、CQ 资源保证多线程并发。

02 浪潮 iRDMA 方案简介

iRDMA 是浪潮信息体系结构研究部利用自研 F10A FPGA 加速卡，基于 Linux 内核 IB 驱动架构和 rdma-core 开源协议栈，开发的一套 RDMA 网络加速平台，用户可在其基础上进行二次开发。

下面是它的软件模块框图：

我们使用 perftest 工具测试 iRDMA，并和 Mellanox ConnectX-4 Lx 10G 网卡做比较，带宽测试结果见下图。

总体来说 Mellanox 网卡比 iRDMA 带宽大一点，按比例看小 size 时比较明显。

点击立即免费试用云产品开启云上实践之旅！

原文链接

本文为阿里云原创内容，未经允许不得转载。

微信关注我们

原文链接：https://my.oschina.net/yunqi/blog/10092068

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

从 0 到 1！得物如何打造通用大模型训练和推理平台

1.背景近期，GPT 大模型的发布给自然语言处理（NLP）领域带来了令人震撼的体验。随着这一事件的发生，一系列开源大模型也迅速崛起。依据一些评估机构的评估，这些开源模型大模型的表现也相当不错。一些大模型的评测情况可以去这里查询：Huggingface 的 Open LLM 排行榜，UC 伯克利发布大语言模型排行榜等。随着大模型的发展，大模型的训练与部署技术变的非常重要了。我们调研了 LORA 与 QLORA 等微调训练技术，以及 GPTQ 量化部署技术。在跑通最小 Demo 并验证效果后，把这些技术集成到 KubeAI 平台(得物 AI 平台)，提供给大家去快速上手。本篇主要分为技术理论与技术实战两个部分去讲解。技术理论主要讲解微调训练与量化推理的理论部分，微调训练包括 LoRA,QLoRA, 部署包括 GPTQ 量化推理等，并针对关键代码进行走读，针对部署进行性能测试。技术实战部分我们把这些技术集成到 KubeAI 平台上，供大家可以快速上手实战。依据前面同学的反馈情况，大约一天内可以完成大模型训练并部署推理上线。 2.LoRA 与 QLoRA 训练技术 2.1 LoRA ...

2023-07-31

416

【 Go 版 ssh 】tssh 发布 v0.1.9，优化了搜索和批量登录功能。快捷键操作全局快捷键非搜索快捷键快捷键描述 Confirm Enter 确认并登录 Quit/Exit Ctrl+C Ctrl+Q q Q 取消并退出 Move Prev Ctrl+K Shift+Tab ↑ k K 往上移光标 Move Next Ctrl+J Tab ↓ j J 往下移光标 Page Up Ctrl+H Ctrl+U Ctrl+B PageUp ← h H u U b B 往上翻一页 Page Down Ctrl+L Ctrl+D Ctrl+F PageDown → l L d D f F 往下翻一页 Goto Home Home g 跳到第一行 Goto End End G 跳到最尾行 EraseKeys Ctrl+E e E 擦除搜索关键字 TglSearch / 切换搜索功能 Tgl Help ? 切换帮助信息 TglSelect Ctrl+X Ctrl+Space Alt+Space Space x X 切换选中状态 SelectAll Ctrl+A a A 全选...

2023-07-31

423

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。