要点
- CUDA(C代码)图像处理:使用cutil库编辑全局内存管理算法处理CPU和GPU端之间数据传输。
- 实现图像的中值过滤方法,cuda代码:
- 通用CUDA内核方法,
- 3*3中值过滤
- 每个邻域像素使用一个寄存器并进行冒泡排序
- 使用最少6个寄存器数通过遗忘选择方法找到中值
- 使用组合遗忘选择处理每个线程 2 个输出像素值
- 5*5中值过滤:通过组合遗忘选择处理每个线程 2 个输出像素值
- 快速近似 m × n 中值滤波
- 实现图像的卷积处理,cuda代码:
- 使用硬编码掩码值实现卷积处理
- 使用符号内存中的掩码及其作为参数传递的半径来实现卷积运算
- 使用符号内存中的掩码和纹理内存中的直接数据获实现 3 * 3 卷积
- 在共享内存中预加载数据后实现通用卷积运算
- 调用 1D 卷积核之间的数据复制实现 2D 可分离卷积运算
- 数据预加载到共享内存后,内核实现水平和垂直一维卷积运算
- 开发CUDA偏微分方程求解器库文件(C++代码):矢量类,矩阵类,线性方程组的迭代求解器,迭代求解器的预处理器类,时间积分器类。
- CUDA集群GPU开发:
- 隐式/显示重叠 MPI 通信与 CUDA GPU 计算
- 流序列明确重叠 MPI 通信与 CUDA GPU 计算
- 显式重叠 MPI 通信、CUDA CPU/GPU 传输和 CUDA GPU 计算、交错计算通信迭代
- 使用MPI,OpenMP和CUDA异步通讯\
- 使用广义最小残差法和共轭梯度法方法求解稀疏线性系统
- 求解大型稀疏线性系统的整数分解
梗概
https://embed.notionlytics.com/wt/ZXlKM2IzSnJjM0JoWTJWVWNtRmphMlZ5U1dRaU9pSlhiRWhvWlV4VVQxbHNjMlZYV2tKbU9URndaU0lzSW5CaFoyVkpaQ0k2SW1SaFlqTmtZVGMzTTJSaE1UUXhORGM1WldVelpERXdaVFpsWXpVMU9EWmpJbjA9