CUDA编程整理
CUDA编程的理论部分可以参考模型部署篇 中的GPU 的 CUDA 编程方法。 虽然CUDA有很多的C代码,这里我们主要以C++为主。一个完整的CUDA程序,需要经历7个步骤 设置显卡设备 分配显存空间 从内存到显存拷贝数据 执行CUDA并行函数 CUDA函数结束后,将结果从显存拷贝回内存 释放显存空间 设备重置 如果是单GPU的话可以省略1跟7两个步骤。 #include <stdio.h> #include <stdlib.h> #include <cuda_runtime_api.h> #include <iostream> /* 核函数 */ __global__ void kernelFunc(float *a) { a[threadIdx.x] = 1; } int main(int argc, char **argv) { //设置显卡设备 cudaSetDevice(0); //分配显存空间 float *aGpu; cudaMalloc((void**)&aGpu, 16 * s...