AI 代理总在即兴发挥?upskill 和 agent-skills-eval:让智能体从验证过的剧本开始工作

那些号称能写代码、做设计、写文档的 AI 助手，真正干活的时候脑子里到底装了什么。你让它做一个十二页的融资路演 PPT，它给你吐出一个"标题、问题、方案、市场、产品、商业模式、团队、融资需求"的模板，每页都像是从某个互联网创业指南里抄来的，既没有叙事张力，也没有视觉系统，更谈不上投资人级别的质量审查。你让它给邮件分类，它就把未读邮件列出来，至于哪些需要今天回复、哪些可以忽略、哪些需要优先处理，它一概不管。你让它做竞品调研，它给你一段松散的总结，既没有区分论断与证据，也没有标注信息来源，更没有结构化的对比框架。

问题不在于模型不够聪明。正确的答案往往已经存在某个地方——前端设计的最佳实践、认证流程的实现指南、CSV 解析的边缘情况清单、研究工作的方法论、电子表格清理的配方——你的 AI 助手只是不知道去拿它。

upskill 做的事情，就是在 AI 助手开始真正工作之前，帮它找到那个正确的剧本。它是一个技能路由层，不是另一个聊天界面。当助手描述任务时，upskill 找到最匹配的技能包，把指令、示例、约束、工具和模式注入到上下文中，然后助手按照这个经过验证的剧本执行，不再从记忆中即兴发挥。一个技能就是一个经过验证的剧本，针对特定类型的工作，包含指令、示例、约束、工具和模式。与其让助手从记忆中发明一个路演 PPT 的结构、设计系统、邮件分类流程、认证流程、研究工作流或浏览器自动化脚本，upskill 找到最好的现有剧本，先把它放进上下文里。

https://github.com/Autoloops/upskill

这个技能库目前已经超过一万个，来源包括 Anthropic 的前端设计技能、OpenAI、Stripe、Vercel、Microsoft 等公司的实现工作流、Garry Tan 的 gstack 和 obra/superpowers 等精选从业者技能，以及社区的独立工作流。缺失的那一环，就是在正确的时间把助手路由到正确的技能上。

upskill 的核心循环很简单。助手运行 upskill find "<任务>"，注册表返回排序后的技能列表及匹配解释和缺失要求；助手运行 upskill inspect <skill_id> 并读取完整的 SKILL.md；助手按照技能执行，不再即兴发挥；如果启用了遥测，助手报告技能是否有效。这并非试图成为另一个聊天 UI，只是一个技能选择层，在执行前给助手更好的上下文。可以把它想象成智能体层的混合专家模型——模型保持通用，但任务在助手行动之前被路由到专业剧本。

但这里有个问题。你怎么知道你的技能真的有效？Agent Skills——Anthropic 提出的开放标准，用于给智能体提供领域知识——让发布一个 SKILL.md 变得很容易，然后你就假设你的智能体现在在这个任务上表现更好了。困难的部分是证明它。

agent-skills-eval 就是那个缺失的测试框架。它针对相同的提示词运行两次——一次加载技能到上下文中（with_skill），一次不加载技能（baseline）——让一个评判模型对两个输出分别打分，然后给你一份并排对比的报告。如果技能没有产生可测量的差异，你会看到。如果产生了，你有证据。它是 Agent Skills 生态系统的测试框架，与任何特定的智能体运行时分离，所以它在你的技能适用的任何地方都能工作。

https://github.com/darkrishabh/agent-skills-eval

这个测试框架的核心心智模型很直接。对于技能中定义的每个评估，同样的提示词分别以 with_skill 和 without_skill 两种方式运行，目标模型生成输出，评判模型根据相同的断言对两边独立打分，最后给出每边的通过/失败结果。评判模型看到评估的 expected_output 和 assertions，对每边独立打分。--baseline 标志启用对比；没有它，你只能得到 with_skill 的运行结果。

这让我想起软件工程中一个古老的问题。你怎么知道你的代码真的解决了问题？写测试。agent-skills-eval 把同样的逻辑带到了技能开发中。你写一个 SKILL.md，定义一些评估，然后运行测试，看看技能是否真的让模型在任务上表现更好。如果评判模型说"这个技能没有让输出变得更好"，你就知道需要修改技能或者放弃它。如果评判模型说"这个技能让输出变得更好"，你就有证据证明技能有效。

upskill 和 agent-skills-eval 的关系，有点像包管理器和测试框架的关系。upskill 帮你找到正确的技能，agent-skills-eval 帮你验证技能是否真的有效。前者解决的是"我有一个任务，应该用哪个技能"的问题，后者解决的是"我有一个技能，它真的有效吗"的问题。两个问题都很重要，但长期以来，AI 助手生态只关注第一个问题，忽略了第二个问题。现在，这两个项目把两个问题都解决了。

我觉得，那些号称能做各种事情的 AI 助手，真正的问题不在于模型不够聪明，而在于它们没有正确的上下文。upskill 解决了上下文的问题，agent-skills-eval 解决了验证的问题。两个项目加在一起，让 AI 助手从即兴发挥变成了有据可依。这并非魔法，只是把软件工程中早已验证的方法论带到了 AI 助手开发中。