【近万字】AI的无限研究,为什么harness和skills是“邪路”?

一周研究➕一周多的后处理，我第二个无限研究的课题或者说测试告一段落。
起点很简单，一句提示词而已：AI时代的投资机会。下图也正是这个起点问题的第一个回答的可视化。内容由Gemini-3-Flash和Gemini-2.5-Flash在Gemini Cli中合作完成，用到的工具只有一个：Web Search。可视化由运行在Mac Studio中的Gemma4-31b模型完成。
当然，这是结果之一，关于流程的起点，在之前的文章里写过了，这里可以再简单过一下。
起点如上所述：AI时代的投资机会。上图中中央的节点，然后，就是不断迭代，每次迭代都调用Gemini Cli，两个任务，一是分析现在的问题，二是提出若干个发散性的问题，程序收到结构化的输出后，对发散性问题进行向量搜索，如果这个话题之前没有相似的，就接受，加入队列，等待被执行。
下图可以更直观的展现这种树状发散的逻辑结构，虽然这张图来自于完全不用云端模型（Gemma4-E4B配合搜索引擎）的版本（单节点质量会有较为明显的差距，但是速度更快，成本低很多，迭代的多了，最终结果也是接近的）。
这就是程序需要处理的全部，一个非常简单的迭代，用到的能力只有三项：联网搜索（并不属于模型）、信息处理与提炼、向量搜索（embedding）；
过去一段时间里，在有算力空闲的情况下，我偶尔还是会启动“无限研究”进程，继续扩展，对，这是随时可启可停的，断点续（传）研？所以，在我前段时间把1688个节点的结果交付后处理后，目前完成的节点数量增长到了2138个；
结果长什么样子？数据库里的几千条记录而已，异常简单。
以上就是“无限研究”本身的全部。
开源：从深度研究到本地无限研究
但真正麻烦的问题才开始，后处理。这个问题从来不简单，因为是一个业务部分和技术部分相互交织相互制约的问题，不过在我看来，更多还是一个业务层面为主的问题：我们要拿来干嘛？长期从事研究工作的人当然会有一个宏大的目标，可是在通向目标的道路上，每一步却是模糊的，正是这些模糊才是根本的困扰所在。
差不多十天时间，我做了很多尝试，当然最近一周更多是等待处理的过程，有几个不同层次的处理方式，今天拿出来展示的是相对完整但很线性的方法，没有我们想要的知识图谱（虽然看起来做了一个），没有逻辑思考的关联，更没有思考后的预测，当然，我加入了会引起“密集恐惧症”的embedding atlas，然后，如第一张图所示，我对每个节点进行了可视化，并展现成一本书的形式，有简单的搜索，但还不能称为wiki，因为没有反向链接。
我把它上传到了vercel中（没有选择cloudflare的原因主要是，在我之前的经验中，vercel的网站国内网络是可以直接访问的）：https://ai-research-jet.vercel.app/
AI无限研究
https://ai-research-jet.vercel.app/
中英文双语支持（这是可视化之外最耗费运行时间的过程，为了更精确的双语支持，调用了几千次的Gemma4-31b模型）。
有层次结构，虽然模型的分层会跟人的习惯有些区别。
每个节点的可视化都是一次出结果，没有修改，只有十几个左右的结果有一些图表渲染不正常，另有少数的可视化背景的风格有一些漂移。这是我对Gemma4最满意的地方，太多人搞模型测试喜欢看Benchmark，或者随便跑几个自以为聪明的问题，然而，我们可能超过95%的任务里都用不到我们认为那些“智商”，跑几千次下来的全面性、可靠性和稳定性，才是真正重要的。看这种对内容的提炼和可视化选择的美感，Gemma4不聪明吗？这种one-shot的低错误率，Gemma4不稳定吗？加起来，不可靠吗？
坦白说，国内任何模型都碰不了瓷，这跟国内模型不可能解决的数据基因问题有关，不合适展开了。
搜索，加了向量搜索，但是当初为了效率和方便性，我直接用了Cloudflare支持的基本embedding模型，维度也只有384，不过也差不多了，反正这种搜索也是关键词为主，做问答的话，我有时间再改吧。
简单图谱关系，看看就得了，其实不是那么一回事情。
Embedding Atlas。我可能是“密集狂”。
细项内容，感兴趣的话，就去页面上看吧：https://ai-research-jet.vercel.app/
小结：
我在前面说过，无论是架构还是细节，远超任何一个人类分析师的水平。我相信，如果给一到三个月时间，人可能可以做的更好，但是要么是结构更好，要么是个别细节更准确，全面超过，几乎是不可能实现的；而这些，实际上如果不是因为每天rate limit问题和我反反复复调整后处理的时间浪费，基本上可以在不超过三天内完成；10到100倍的效率差，这也符合我一向的感知和判断；
全流程里，没有使用skills，至于harness，Gemini Cli自身的Agent优化算不算？我觉得应该是算的；
在无限迭代的过程中，我们真正用到的资源，或者说能力，一是搜索，以“穷尽互联网信息的信念”反复搜索，二是不断通过搜索结果“激活”模型自身的attention，不断挖掘模型的自身能力（推理和知识）；
以上，是我对模型的信念所在，作为之前一篇文章的实例支撑和解释。
而我下面要开始的，是“离经叛道”，因为我坚定认为harness和skills就是“邪路”，作为共鸣或者说“硬蹭”，建议大家可以看一下对Google DeepMind创始人Demis（对的，得诺奖那位）最新的采访（其实核心是两点，他对“智能”有着非常“原教旨主义”的理想，他在“酸”Anthropic和OpenAI如今的商业化之路，这不是AI的正确打开方式）。
我认为我理解如今正在发生的事情，Demis当然比我理解的全面且深刻的多。
但我依然认为，harness和skills就是“邪路”。举个不恰当的社会上普遍的例子：大量花费很多时间和金钱培养出来的受过高等教育的人才，却从事着似乎很不匹配的工作。这个问题过去多年经常被讨论。
我并不DEI，站在自己的角度，我也有极强的偏好和自我选择，但如果站在客观的立场，我对不同类型的工作几乎没有“高低好恶之分”，每个人都有不同经历和面临的历史与现实问题，再说，当前的状态根本不代表什么。
但是，如果换到模型之上，就完全不同了。
当然，我还是会分两个层次去说，一是从模型及应用本身，一是从用户或者商业角度。我尽可能简洁一点。
首先，先定义一下harness，它并不是单指一项技术，或者解决方案，而是一系列组合，它的目的，顾名思义，就是如果把AI模型看作没有被驯化的“野马”的话，harness就是用户手中的缰绳，用来让马听骑手指挥的（人类要多么自负，才会用这样的词啊！所以为什么在我前几天写的“三原则”里，我会把对AI的信念放到第一条，这是一个最基本的世界观问题）。从技术上讲，harness涉及到如何管理上下文，如何管理记忆，如何管理AI之上的Agent的生命流程，比如怎么选择工具，怎么调用工具。Harness的实质是给模型配上一系列“接口”，供用户方便的下指令。
Harness的概念里确实有很多有价值的东西，比如目标是如何让AI Agent能够持续工作更长时间，让人可以休息或者同时指挥更多的AI Agents。这个我也喜欢。这里面如果全部由自己来写，会耗费非常多的精力，有人做了，而且是模型公司自己做了，自然是欢迎的。
简单而言，如果我们要让模型做一个贪吃蛇游戏，如果直接用问答方式，模型可能生成一个完整的html网页页面或者一个Python或其他的程序，打开就能用，但是可能视觉效果没那么好，用户可以调整的参数什么没那么多；有了Harness，返回的可能是一个完整的网站，或者app应用，特点是有多个文件，有了很多的健壮性和安全性考量，页面视觉效果提升明显，甚至也许可以改不同风格不同配色方案。
当然，最大的不同特点是，当用户希望修改时，如果直接通过对话方式提问，模型可能会重新输出全部代码，哪怕只修改了一个字符，当然聪明一点的方法是只输出修改的部分，然后告诉用户替换哪一段，让用户手动修改一下。有了Harness，也许它也是这样问模型，但是就会选择上面说的第二种“更聪明”的方式，然后根据模型的输出结果，直接帮助用户完成修改。
有了缰绳，骑手只要关注方向，然后根据缰绳的反馈进行调整就行了，马+缰绳的组合能力越强，骑手需要的调整就越少，甚至还可以配合作出高超的技术动作。
Harness的目标是让模型+harness的组合具备自动驾驶能力，衡量指标也例如自动驾驶，只不过自动驾驶中衡量的是多长距离人类驾驶员需要进行人工介入，在模型或者Agent领域，衡量的是可以自主工作多长时间，当然，前提是目标实现。如今的模型+harness，解决了很多本文开始写的“目标宏大、过程模糊”问题，我们已经可以越来越多的感受到，哪怕是一个非常模糊和大的目标，只要一句话，agent就可以在明星和harness的加持下，将细节补充完整，交付不错的结果。
当然，如果模型能力足够强，比如上面“贪吃蛇”的例子里，它在一次输出里就设计了多个文件，每个文件都讲的清清楚楚，甚至人怎么执行的指令都给出了，每次修改也类似，那么我们配合模型落地的程序就只需要识别指令、按序执行了，这不需要用到AI，简单的正则表达式➕命令行工具就好。不过这样的问题是，用户环境千差万别，指令难免出错需要作出修正，这些活也是harness的范畴（在更早的模型应用里，比如GPT-4o时代，为了避免这种情况，用的是标准化的容器或者说sandbox）。但是，如果话又说回来了，如果模型足够强，它可以先调用一遍用户环境分析，然后给出个性化执行方案，确保结果的准确性，是的，只要模型够强，总是可以有更简单的解决方案了。
所以，划重点的话：Harness实质是补救模型能力不足的问题，模型越强，harness的作用就越小。当然，不得不补充的还有一个约束条件，同样的成本之下，可能很强的模型跑一次的成本足够差一点的模型跑一百次，那么这时候harness依然重要。
如果我们相信模型还在进步，而且是加速进步的话，可以得到一个很简单的结论，如今对Harness越执着，投入越多，未来后悔的可能性越高。
以上全部是模型能力视角，当然，如果从使用者视角就可以有不同的答案：毕竟成本约束下的模型能力提高总是需要时间，现在多卷一点harness，就会让结果看起来更好看，商业上回报也许更高。Anthropic就是这么想的，OpenAI一直在犹豫，但越来越被逼得没有选择逐渐投降，Google DeepMind重心一直在模型本身，当然他们也被迫分出了一部分经历去强化Harness了。
其实，还是关于理想与现实的选择问题。只不过，因为AI“看起来”大幅降低了使用者的门槛，使得可能绝大多数用户在没有弄明白LLM、Agent、Harness的时候，就靠着“人定胜天”的信念陷入到了“内卷死循环”中而不自知。
卷从来不是个问题，为什么而卷，怎么卷，才是个问题。
如同自由泳，拼命练大腿，拼命用力划手，长期当然有效果。殊不知，对于很多成年人来讲，肌肉和关节已经柔韧性已经跟不上了，一味拼命，反而会弄伤身体。这时候，要多练的反而是类似于水中漂浮，多感受跟水的触感，让自己的动作跟着自己的肌肉和关节能力与水更好的融合，同时也改善肌肉和关节能力。这才是长期可持续的健康方式，而且，慢就是快。
所以，我对harness的观点比较中性，很重要，很多时候很实用，但是过多偏执于harness，就是“邪路”，陷得越深，也许以后的副作用越明显。
人的竞争对象，永远是人，不是AI。
到Skills了。Skills被设计出来，解决两大痛点。
第一个痛点是，简洁性或者使用门槛。在Skills出来之前，比如生成一个PPT，其实是需要做很多编码工作和流程编排的，分成设计+分布执行+测试修改三个大步骤。一年多前，我的实现方法就是这样的：先交给上下文处理能了更强的gemini-pro系列模型给出设计方案，例如有多少页，每一页主要内容，大概布局，需要用到什么元素（可视化图表，svg，还是动画），然后是逐页的执行，交由flash系列模型，根据设计生成genpptxjs代码（包含预设的主题模版，配色方案，字体等），然后再加入一些lint之类的检查测试。但是它的问题是使用有门槛，而且很难分享（即使过去一两年我开源了很多工具，分享了很多build的小应用，但是我自己也知道，真正去使用的人很少很少）。Skills的解决方式就是把这个过程分成提示词、执行脚本、模版三大部分，打成一个包，可以直接复制和安装，对环境的依赖只有一个，支持Skills的ide或者终端应用。在这个过程中，标准制定和“零复刻门槛”都是极为重要的；
第二个痛点是，上面的解决方案其实也可以直接通过长提示词，甚至加入一些脚本实现，我去年基于终端命令行工具的OpenResearc就是这么实现的：一个Markdown规定了工作流程，不同模块还有不同的脚本和模版，本质上就是一个复杂的提示词。但是这里面最大的问题正如当初Anthropic所说，加载的提示词太大，执行期间上下文太长了，会造成结果的不可控。Skills通过分批加载的方式尽可能减轻了这个副作用。
当然，两点结合起来，带来了Skills非常“繁荣”的景象：1. 用户可以通过简单的输入，就得到一个“具备专业技能”的skills，比如XXX的投资经验，比如某个离职员工的所有工作记录；2. 只要“大神”分享一个Skill，人人就都成了专家，美观PPT根本不在话下，分分钟也成为无所不知无所不能的“神”；
这当然是Anthropic最希望看到的。或许它们自己都没想到，通过大量使用用户数据总结出来的Skills的解决方案，通过大量使用用户数据“蒸馏”出来的Skills，会给他们带来如此之大的商业价值。
这个问题，放到后面再展开，我们先从技术层面讨论Skills。
Skills的上限远远不如业务绑定更好的流程编排加数据管理。也就是说，通过开发应用，与业务绑定更深，得到的结果和稳定性远高于Skills；
Skills的安全性问题，老生常谈了，不展开了；
尽管上面说了，相比直接提示词的方式，Skills在更复杂的任务或者流程中可控性更好，结果更稳定一点。然而，这背后是有代价的，Skills的产出结果更“八股文”。我们可以做一个相对简单的测试，对于很多只有一个markdown文件的所谓skills，同时比较a)将markdown内容直接复制到对话框中问模型b)调用skill执行，这样两种模式。很多场景下，Skills输出的内容更多，结构更完整，但是如果是一篇文章的话，文章的不同部分之间关联性更弱；相比之下，直接提示词交由模型输出的内容，结构会有缺失，但是重点会更突出，不同部分之间的关联性更强。背后的原因很简单，如果以一篇文章来看，无论用什么方式，模型输出能力的天花板是一样的，其实就是能够有效处理的上下文长度的能力和知识能力，上下文长度的能力中对应的比较重要的一部分又是推理能力。在两种方式面对的是同样的天花板的情况下，大多数情况下，虽然一个复杂提示词的输出在细节上有缺失，但整体性和关联性就会更好一点，因为它牺牲了重要度并不高但是token量却很大的细节；
另一方面，Skills在面对更复杂的任务和流程时，也是硬伤很明显的：1)也许通过高超的技巧，有可能让skill具备任务被打断后的断点恢复能力，但相比流程编排应用的方式，这依然是更复杂而且结果更不稳定的，更别说节点重做，部分重启，扩展了；2)与提示词方式一样，当给skill加入过多要求时，最终会面临提示词输入同样的问题，上下文不够用和信息污染问题；
最后，skill的版本维护和扩展性问题，是的，在skill标准里引入了版本概念，但是相比应用生态立成熟的版本控制体系，差距依然巨大；同时，现实应用中，也大量存在一个基础skill产生不同变种的问题，实际情况下，我就产生了几十种视频生成的skill的变种，有时候是因为内容的不同侧重（有些输出要屏蔽一些更敏感的信息），有时候是因为风格调整问题，是的，我也试过在一个skill里加入初始条件，但最终分支越来越多，质量越来越差。大量变种的存在加剧了版本管理的灾难，有时候一个基础的修改，需要改动所有的变种版本。当然，我也尝试了skill嵌套（skill调用skil），有些方面提升了，有些方面灾难加剧了，特别是，一个任务的执行成本飞快上升。
特别是最后一个问题，其实对像我这样写了三十几年程序的人而言，早就经历过了，然后看着软件工程一步一步的发展成熟起来，Skills这种新生事物也一样会不断成熟和发展的。但又回到那个根本问题：是模型发展的快，还是我们研究完善skill的进程快？
当初的程序语言不同，每一门语言推出并开始被更多人采用时，都具备了很高的完整性和成熟度，这意味着围绕语言进行的外围支持和优化往往是正收益的，我们需要考量的只是一门程序语言未来是否会用户越来越多、社区越来越发达，遇到困难时得到社区的响应时间是否会越来越快，而，关键的第二点是，这些都是良性循环的。在一个正循环里，技术部分的个人经历投入总是值得的，我们并非左脚踩右脚进步，而是互为肩膀进步的。
然而，对于Skill的话，两点都不存在了，今天投入精力修正的问题，也许明天一个新模型发布就不是问题了，你反而需要推翻过去的流程重新来过，技术上，skill的投入至少有极大的风险是负收益，因为重做需要成本；Skill用的越多，分享的越容易，传播的越快，个人的精力投入收益越低，一个有经验的分析师将自己的心得提炼成写研究报告的skill，无论他愿意不愿意（这个问题下面马上讨论），实质上都被“分享”了，对于这位分析师而言，他花费了精力，将自己的经验瞬间打到了“零价值”。是的，我们依然可以说，经验这种东西哪是几个skill或者输出就那么容易被贬值的？可是，我们细品一下呢？
社区越发达，个人价值越低，这是一个妥妥的负循环。
我大概能想到以后可能的结局：要么少数几个大模型公司垄断越来越多领域，人类成为真正的“赛博牛马”，要么，人与人之间越来越少的分享了。
第二条，正是我如今时刻在面临的“灵魂拷问”：客观而言，即使没有AI，即使没有固定的工作，我应该也可以活下去，“分享”已经成为很难改正的天性了；但我依然作出了一些选择，划定了一些规则去限制和改变自己的这种天性。
如果是第一种呢？其实，无论第一种还是第二种，这都是模型公司最不道德的地方：AI模型来源于开源社区和人类分享协作的精神，但是模型公司正在亲手毁掉程序世界过去几十年来构建起来的最重要的基础：开源。这不是一个简单的模型开源问题，而是更深层次的数据开源问题。
很简单的一个点，很多人都在好奇，为什么这段时间Anthropic的速度这么快，像开了外挂一样。是的，他们开了，在去年年中的时候，当他们要求用户选择是否为了保留自己的Claude数据而愿意提供自己的数据用于模型训练的时候。
这并非最过分的，最过分的是，他们通过时刻监控分析用户的数据，正在快速“蒸馏”用户的思想和最佳实践，变成Claude应用体系的一部分。如果老一点的人对当初3Q大战还有印象的话，我此刻对Anthropic这家公司前面加的形容词，会比当初计算机世界的三字经难听上百倍。
因为这不是在让人类变得更好，这是走在毁灭全人类的道路上。
可是，这不能单独责怪Anthropic一家，另几家也没好到哪里去，只是可能没那么激进，或者还得装点一下门面。
更往前推，这个恶因早在互联网巨头贪生时，就被埋下了。
如今的Claude模型特别是模型之外的Agent，Harness、Skills，都是无数用户这几年来“自费打工”的结晶，这家公司没有相比于其他家独特的优势，如果，“无耻”也算的话。
批判的最后一句：AI时代，人类思想结晶的数据如果要被使用，应该以某种合适的方式可以被全人类公平的获得和使用。同理，任何一家销售智能汽车的公司也需要向此对标，原因很简单：用户付费使用了，而即使给了一个用户是否同意数据被使用的选项，在无道德底线的公司面前，依然是苍白无力的，唯一的解决方案，就是至少所有付费用户享有与大公司平等的数据使用权。
所以，我可以毫无掩饰的表达对skills的评价：这是彻底的“邪路”，尽管我为了方便，也会采用，但我不会花精力去完善。付出的越多，负作用越大。
上面没有从完整的用户视角看去，先提炼出最重要的一点：用户的“负收益”问题，如前所述。然后是其他方面的补充：
从用户真正实用的角度而言，Skill最大的存在价值是在流程的主线或者支线的末梢：初始输入或者最终输出。比如，一个skill爬取特定的互联网信息，一个skill输出符合公司模版要求的ppt。因为“八股文”的特性非常适合这样的场景和需求；
很多用户的问题不是缺乏skill，而是缺乏需求，他们需要的不是如何看到别人用skill生成ppt，而是他们以为只是到了有ppt的skill出现后，AI才可以做ppt，这根本是需求不明确的问题；
AI是一个完全不同的时代，它不是数据时代，也不是自动化时代，而是“智能时代”，智能自然可以“自动化”，但这只是最廉价的部分，也许以前甚至现在或者未来的一段时间里，廉价的自动化依然有看起来不小的商业价值，但是，如果“智能”真的越过奇点了，那这些自动化的价值就会归为“负”（算力成本），因为，这次的“智能”还有超级杠杆。如果“智能”很长时间都越不过奇点，那这螺蛳壳道场对人而言也只会越来越拥挤，价值只会在外面；
我相信的“智能”，是在同样的数据背后，看到更多以前看不到的关联，有些关联直指世界的本质，甚至有些关联经“智能”演绎后，成为惊天的发现。差不多，这就是Demis前段时间说的他对AGI的理解：如果只给1910年以前的数据，模型可以自己推导出相对论。
我相信，即使站在最前沿的人如Demis也不能把是否可以达到这样的“智能”的问题看得那么清晰，更别说如何到达的道路了，但这样的探索才更符合人类文明不断进步的核心驱动力。
我也相信，工业化时代、互联网时代，真的给人类带来了巨大的福利，一种是商品生产，一种是信息差，智能时代的福利也许是新的有价值信息的生产，或者这个世界的本质？但，应该不会是已有信息的复制。

写在最后，居然接近万字了。也许还有没写的很清楚的部分，但似乎我自己意识到的思考过程是完整的。
我可能还是低估了“无限研究”这样的方法，因为它是如此简单，只是反复迭代；因为它纯粹依靠数据（搜索）和模型能力；因为它的结果，我无法预判。