乐于分享
好东西不私藏

PTX9.1文档第三章也挺短

PTX9.1文档第三章也挺短

总共就仨页,在大家多少都知道 CUDA GPU 编程的当下其实也不用太细看。
整个第三章讲了 SIMT 的概念,Volta 及以后每线程因为有了独享的 program counter 而更完备更灵活,机器上有哪些片上资源可以用。
总体而言,是描述了在编程模型之下,机器也在不断努力让每个线程更加灵活而完备,不断向 CPU 上的线程能力靠拢的过程(同时要保持能效比更高、吞吐更大,手动狗头)。
这个 Volta 前 Volta 后线程和 PC 对应关系的分水岭,听起来像是之前是玩两人三足,每个线程任务不同时候得大伙一个个来,现在可以穿插组队更高效前进。但其实,我也没搞清楚单这个 per thread program counter 在 Volta 这一代上相对于 Pascal,多耗了多少晶体管,是不是多做了编程不可见的寄存器。。。
哦,对,差点忘了说,cccl 其实已经把 PTX 给包成在 CUDA C/C++ 里可以直接调用的形式了,大家duck不必看我这个犟人一点点琢磨咋用 native PTX 写东西 https://nvidia.github.io/cccl/unstable/libcudacxx/ptx_api.html,我喜欢看 PTX/SASS 纯粹因为可以躲掉层层封装,对阅读能力受限人士更友好,但一上来看个稍大段的 PTX 内容就容易掉向,所以才出此下策先硬啃文档。
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » PTX9.1文档第三章也挺短

评论 抢沙发

4 + 9 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮