当前时间: 2026-02-21 01:00:36
分类:软件教程
评论(0)
马年硬啃PTX文档咋样
既然GPGPU是 general propose 的,那在理论上,我可以只用 GPU 的单个线程,把像 chibicc 这样较精简的 C 编译器的 codegen 阶段的 x86 汇编替换成 PTX 代码,试试看能不能在 CUDA GPU 上把 git, sqlite, libpng, CPython, CRoaring 这样的代码给编译出来,弄几个巨慢但能跑的程序。先验证通用性,再回去看性能。
我对 x86 汇编其实不够熟悉,把 chibicc 里面的指令 remap 到 ptx 得先重学汇编。(这倒还好,作为 xuetangx 十几年老用户的我已经在做了👇)
但这种缺少实用价值的事情,找个 coding agent 来做,自己嗑瓜子围观其实更合适。。
小时候在某本“意林体”杂志上看到过一个故事,说国外某户的拖拉机还是除草机坏了,工程师来修,检查了一会儿找个位置一锤子敲下去机器就好了,收费 100 美元,机主嫌贵,工程师解释那锤子只要一美元,但找到敲的位置所需要的教育、培训、经验和推理价值九十九美元。如今时代,AI 已经可以被当作超大型复杂自动机来用,那人类确实就得靠更精确深入地掌握那些“元信息”,通过独立思考来找到“敲锤子的地方”,以继续生存和发展。既然我们在之前通过 PTX1.0 的逐行阅读开了个头,而那份文档本身又不够完整,干脆就把 9.1 在今年逐行过一遍,修炼 AI 时代的生存技能。
PTX 1.0 的 pdf 有 84 页,PTX 9.1 的 pdf 有 896 页(且还未涵盖 launchdep 之类的内容),读前者不需要写具体的 PTX 代码,读后者确实可以拿那块 5070 边读边实验。还是一点一点啃一点一点写吧,希望能在 Rubin 大规模出货前啃完 PTX 9.x 的内容。过程中预计要 “cosplay 许三多” 了。
本站文章均为手工撰写未经允许谢绝转载:
夜雨聆风 »
马年硬啃PTX文档咋样