要点

  1. CUDA(C代码)图像处理:使用cutil库编辑全局内存管理算法处理CPU和GPU端之间数据传输。
    1. 实现图像的中值过滤方法,cuda代码:
      1. 通用CUDA内核方法,
      2. 3*3中值过滤
        1. 每个邻域像素使用一个寄存器并进行冒泡排序
        2. 使用最少6个寄存器数通过遗忘选择方法找到中值
        3. 使用组合遗忘选择处理每个线程 2 个输出像素值
      3. 5*5中值过滤:通过组合遗忘选择处理每个线程 2 个输出像素值
      4. 快速近似 m × n 中值滤波
    2. 实现图像的卷积处理,cuda代码:
      1. 使用硬编码掩码值实现卷积处理
      2. 使用符号内存中的掩码及其作为参数传递的半径来实现卷积运算
      3. 使用符号内存中的掩码和纹理内存中的直接数据获实现 3 * 3 卷积
      4. 在共享内存中预加载数据后实现通用卷积运算
      5. 调用 1D 卷积核之间的数据复制实现 2D 可分离卷积运算
      6. 数据预加载到共享内存后,内核实现水平和垂直一维卷积运算
  2. 开发CUDA偏微分方程求解器库文件(C++代码):矢量类,矩阵类,线性方程组的迭代求解器,迭代求解器的预处理器类,时间积分器类。
  3. CUDA集群GPU开发:
    1. 隐式/显示重叠 MPI 通信与 CUDA GPU 计算
    2. 流序列明确重叠 MPI 通信与 CUDA GPU 计算
    3. 显式重叠 MPI 通信、CUDA CPU/GPU 传输和 CUDA GPU 计算、交错计算通信迭代
    4. 使用MPI,OpenMP和CUDA异步通讯\
    5. 使用广义最小残差法和共轭梯度法方法求解稀疏线性系统
    6. 求解大型稀疏线性系统的整数分解

梗概

https://embed.notionlytics.com/wt/ZXlKM2IzSnJjM0JoWTJWVWNtRmphMlZ5U1dRaU9pSlhiRWhvWlV4VVQxbHNjMlZYV2tKbU9URndaU0lzSW5CaFoyVkpaQ0k2SW1SaFlqTmtZVGMzTTJSaE1UUXhORGM1WldVelpERXdaVFpsWXpVMU9EWmpJbjA9