那些号称能写代码、做设计、写文档的 AI 助手,真正干活的时候脑子里到底装了什么。你让它做一个十二页的融资路演 PPT,它给你吐出一个"标题、问题、方案、市场、产品、商业模式、团队、融资需求"的模板,每页都像是从某个互联网创业指南里抄来的,既没有叙事张力,也没有视觉系统,更谈不上投资人级别的质量审查。你让它给邮件分类,它就把未读邮件列出来,至于哪些需要今天回复、哪些可以忽略、哪些需要优先处理,它一概不管。你让它做竞品调研,它给你一段松散的总结,既没有区分论断与证据,也没有标注信息来源,更没有结构化的对比框架。
问题不在于模型不够聪明。正确的答案往往已经存在某个地方——前端设计的最佳实践、认证流程的实现指南、CSV 解析的边缘情况清单、研究工作的方法论、电子表格清理的配方——你的 AI 助手只是不知道去拿它。
upskill 做的事情,就是在 AI 助手开始真正工作之前,帮它找到那个正确的剧本。它是一个技能路由层,不是另一个聊天界面。当助手描述任务时,upskill 找到最匹配的技能包,把指令、示例、约束、工具和模式注入到上下文中,然后助手按照这个经过验证的剧本执行,不再从记忆中即兴发挥。一个技能就是一个经过验证的剧本,针对特定类型的工作,包含指令、示例、约束、工具和模式。与其让助手从记忆中发明一个路演 PPT 的结构、设计系统、邮件分类流程、认证流程、研究工作流或浏览器自动化脚本,upskill 找到最好的现有剧本,先把它放进上下文里。

https://github.com/Autoloops/upskill
这个技能库目前已经超过一万个,来源包括 Anthropic 的前端设计技能、OpenAI、Stripe、Vercel、Microsoft 等公司的实现工作流、Garry Tan 的 gstack 和 obra/superpowers 等精选从业者技能,以及社区的独立工作流。缺失的那一环,就是在正确的时间把助手路由到正确的技能上。
upskill 的核心循环很简单。助手运行 upskill find "<任务>",注册表返回排序后的技能列表及匹配解释和缺失要求;助手运行 upskill inspect <skill_id> 并读取完整的 SKILL.md;助手按照技能执行,不再即兴发挥;如果启用了遥测,助手报告技能是否有效。这并非试图成为另一个聊天 UI,只是一个技能选择层,在执行前给助手更好的上下文。可以把它想象成智能体层的混合专家模型——模型保持通用,但任务在助手行动之前被路由到专业剧本。
但这里有个问题。你怎么知道你的技能真的有效?Agent Skills——Anthropic 提出的开放标准,用于给智能体提供领域知识——让发布一个 SKILL.md 变得很容易,然后你就假设你的智能体现在在这个任务上表现更好了。困难的部分是证明它。
agent-skills-eval 就是那个缺失的测试框架。它针对相同的提示词运行两次——一次加载技能到上下文中(with_skill),一次不加载技能(baseline)——让一个评判模型对两个输出分别打分,然后给你一份并排对比的报告。如果技能没有产生可测量的差异,你会看到。如果产生了,你有证据。它是 Agent Skills 生态系统的测试框架,与任何特定的智能体运行时分离,所以它在你的技能适用的任何地方都能工作。

https://github.com/darkrishabh/agent-skills-eval
这个测试框架的核心心智模型很直接。对于技能中定义的每个评估,同样的提示词分别以 with_skill 和 without_skill 两种方式运行,目标模型生成输出,评判模型根据相同的断言对两边独立打分,最后给出每边的通过/失败结果。评判模型看到评估的 expected_output 和 assertions,对每边独立打分。--baseline 标志启用对比;没有它,你只能得到 with_skill 的运行结果。
这让我想起软件工程中一个古老的问题。你怎么知道你的代码真的解决了问题?写测试。agent-skills-eval 把同样的逻辑带到了技能开发中。你写一个 SKILL.md,定义一些评估,然后运行测试,看看技能是否真的让模型在任务上表现更好。如果评判模型说"这个技能没有让输出变得更好",你就知道需要修改技能或者放弃它。如果评判模型说"这个技能让输出变得更好",你就有证据证明技能有效。
upskill 和 agent-skills-eval 的关系,有点像包管理器和测试框架的关系。upskill 帮你找到正确的技能,agent-skills-eval 帮你验证技能是否真的有效。前者解决的是"我有一个任务,应该用哪个技能"的问题,后者解决的是"我有一个技能,它真的有效吗"的问题。两个问题都很重要,但长期以来,AI 助手生态只关注第一个问题,忽略了第二个问题。现在,这两个项目把两个问题都解决了。
我觉得,那些号称能做各种事情的 AI 助手,真正的问题不在于模型不够聪明,而在于它们没有正确的上下文。upskill 解决了上下文的问题,agent-skills-eval 解决了验证的问题。两个项目加在一起,让 AI 助手从即兴发挥变成了有据可依。这并非魔法,只是把软件工程中早已验证的方法论带到了 AI 助手开发中。
夜雨聆风