数十万的AI Agent生态里,找不到一个是给 3D 研究人员的Skill?
先亮一下我最近的两个skill,欢迎指正、共同参与优化:
https://github.com/jaccen/Awesome-Gaussian-Skills
写该文章的初衷
2026 年 1 月,OpenClaw(江湖称“小龙虾”)以火箭般的速度登顶 GitHub,星标数从不到 1 万飙升至 35 万+。与此同时,其技能生态 ClawHub 的注册技能数已突破 13,729+,腾讯朱雀实验室 4 月的全量扫描报告更是显示,ClawHub 上的 Skill 总量已达近 50,000 个。
VoltAgent 维护的 awesome-openclaw-skills 仓库已从这海量技能中筛选出 5,400+ 个优质技能,自身也收获了 47,200+ stars。
然而,在这片繁荣的技能海洋里,有一个领域完全是空白的。作为从事AI、Agent、3D相关的研究以及工程应用实践者,我想贡献一点绵薄之力。
1.3万个Skill,3D视觉一个没有
我用“3D”“视觉”“图形学”“重建”“NeRF”“Gaussian”分别搜了一遍。结果都是0。不是搜出来的质量不行,是根本就没有。1.3万个注册技能,近5万个实际文件,没有一个是为三维视觉/图形学研究者准备的。
这个空白有点不合常理。3DGS自2023年Kerbl等人在SIGGRAPH发表以来,已经成为计算机视觉领域产出最密集的方向之一。MrNeRF维护的awesome-3d-gaussian-splatting仓库有8500多星,专门追踪这个方向的论文。浙大团队2024年初发布的综述(arXiv 2401.03890)梳理了几十种变体,到今年南大和中科院计算所的新综述,方法数量又翻了几番。arXiv上几乎每天都有新的3DGS论文出来。
而且3DGS已经不只是学术概念了。它在产业端的落地速度比大多数人意识到的要快。
3DGS的产业落地:几个有明确来源的案例
清华大学的研究团队在IROS 2025上发表了CRUISE项目,用3DGS构建可编辑的V2X数字孪生世界。车路协同(V2X)需要海量的仿真场景来训练自动驾驶算法,传统方法建模周期长、场景单一。CRUISE用3DGS实现了车辆、道路、交通标志等场景元素的可控编辑和实时渲染,能够快速生成多样化的车路协同视角仿真数据。
某某企业在工业场景中做了探索。其自研的引擎结合深度学习与高斯溅射算法,通过多视角图像和视频数据的智能分析,实现了工业机器人场景的三维重建与实时交互,同时提供AI算法辅助机械臂的轨迹规划。这种“视觉重建+智能决策”的组合,是3DGS从“看得见”走向“可用”的一个典型路径。
香港科技大学张佳莹团队利用3DGS做古建筑的数字孪生保护。这项研究将多模态大语言模型与3DGS结合,构建了一个遗产建筑数字孪生智能体,能够高精度还原古建筑的细节,包括雕刻纹理、结构缺陷等信息,并提供自然语言交互接口。对于文化遗产保护而言,这种“可交互的数字存档”比纯粗粒度的三维扫描有用得多。
景区和园区数字孪生也是3DGS的重要落地场景。众多国内厂商已经将3DGS应用于大范围景区的三维重建,处理弱纹理区域(植被、古建筑立面、石刻等)时表现出更高的稳定性,同时降低了模型体量与渲染负担。易知微在《2025数字孪生与智能算法白皮书》中把3DGS定义为数字孪生的“新一代数据引擎”。
CAD与3DGS的互补关系
值得一提的是CAD与3DGS的互补性。CAD解决的是“精确设计”问题:参数化建模,可以控制到毫米级精度,直接对接加工设备。3DGS解决的是“高保真可视化”问题:通过拍照重建真实场景,保留表面细节和纹理,支持实时渲染交互。
在工业数字孪生场景中,这两者的结合正在变得越来越常见。CAD提供设备的参数化工程模型,3DGS提供设备当前实际状态的高保真重建(比如管道锈蚀、标识磨损等),二者叠加后能够实现“设计状态与运行状态的对比”,这对设备运维和故障诊断有实际价值。这也是当前三维数字化领域的一个明确趋势。
做一个3DGS方向的研究者,日常在干什么
3D的同行每天的工作流程大概是这样的:
读论文。3DGS方向现在每天的产出量,让“追踪文献”本身就成了一个全职工作。认真读完一篇3DGS论文(方法、实验、与已有工作的区别),大概需要40分钟到1小时。每天来5到10篇新论文,你算算时间。
对比方法。3DGS的变体太多了,GS、2DGS、Scaffold-GS……每一个都在不同的地方做了改进。每次想搞清楚两个方法的核心区别,得打开好几篇PDF,翻到各自的实验章节,手动对齐评价指标和实验设置,半天就过去了。
查代码的bug。3DGS的底层代码涉及大量CUDA操作,高斯裁剪的边界条件、显存泄漏、球谐函数的阶数溢出……这些坑不是看文档能发现的,基本靠踩。投稿前做一次完整的代码审查,在我这里通常要一到两天。
设计消融实验。每写一篇论文都要做。哪些变量要控制,哪些基线要跑,数据集怎么选,这个事情没有标准流程,完全看个人经验。我见过有人实验做了一半发现少了一组对照,从头来过。
从NeRF迁移到3DGS。两个方向有很多概念上的对应关系(体密度对应不透明度,射线采样对应高斯排序),但这些对应关系没有一份系统性的文档。每次迁移都要从零查资料,花个三五天很正常。
写论文。通用写作工具对图形学领域没有适配,格式、术语、行文习惯都要自己调。
这些工作的本质是,3DGS领域的经验性知识大量分散在论文的角落和个人脑子里,没有被结构化地整理出来。AI Agent能帮忙的前提是这些知识得先被写下来,而且要用AI能执行的格式书写。
一个200行的Markdown就能搞定
Karpathy的那个项目给了我很大的启发。他的做法很简单:把LLM编程的准则拆成具体的规则,写成Markdown,告诉Claude Code“遇到这种情况就这么做”。不需要框架,不需要API,不需要部署环境。
OpenClaw的Skill也是这个思路。一个标准的 SKILL.md 就是一个 YAML 头加上 Markdown 正文。YAML 头定义名称、描述和触发条件,正文写具体的操作步骤、工具调用方式和输出格式。
我们做的事情并不复杂。基于自己在3DGS方向积累的经验,把上面提到的那些重复性工作分别封装成Skill。第一批做了6个:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
总结
我不想把效果说得太满,有几件事情得交代清楚。
第一,我是3D方向的研究者,做这些Skill的出发点是解决自己和团队的问题,视角上肯定有局限。如果你做的是SLAM或者点云处理,这些Skill对你帮助有限。
第二,ClawHub的“零结果”是基于公开索引的检索。不排除有个别3D相关的Skill存在但没被收录,不过核心研究领域确实是空白的。
第三,文中引用的数据都标了来源(CSDN、知乎、腾讯安全报告、GitHub公开数据等),可以自己验证。
第四,Skill的效果受底层AI模型能力制约。我们做的事情是把3DGS领域的经验性知识标准化,让AI有东西可以参照。至于AI能不能用好,取决于模型本身。
项目地址:https://github.com/jaccen/Awesome-Gaussian-Skills
如果你也在做3DGS相关的研究,欢迎来看一看,提issue也好,提PR也好,哪怕只是补充一个你踩过的代码坑,对别人都有帮助。
参考来源
[1] OpenClaw GitHub Stars 354,000+ — CSDN, 2026.4.22,
[2] ClawHub 13,729+ 注册技能 — VoltAgent/awesome-openclaw-skills README, 2026.2.28,
[3] 腾讯朱雀实验室扫描 50,000 Skills — 腾讯安全, 2026年4月26日,,.
[4] VoltAgent/awesome-openclaw-skills 47,400+ stars — GitHub, 2026.4,
[5] andrej-karpathy-skills 60,000+ stars — 知乎, 2026.4.19,
[6] awesome-3D-gaussian-splatting 8,500+ stars — GitHub, 2026.4,
[7] 3DGS 综述论文 — arXiv 2401.03890, 浙江大学, 2024.1
[8] CRUISE: 3DGS构建V2X数字孪生 — IROS 2025, 清华大学, 腾讯网, 2025.7
[9] 凡拓数创FTE引擎+3DGS — 知乎, 2026年4月25日4.25
[10] 3DGS遗产建筑数字孪生 — China Daily, 2024.4.7, 香港科技大学
[11] 景区数字孪生底座新解法 — 知乎, 2026.2.11, 数峦云
夜雨聆风