AI Agent绩效评价咋弄?——IT、OD、Advisor视角的一些思考

几天前，一位IT圈的朋友看了我写的《啥是md文件？》那篇文章，给我提了个思考题："你可以试着研究一下，AI工作体系下，怎么给Agent评价绩效？"

这个题把我难住了。抠了几天脑壳，还是不知道怎么解。

于是去查资料。花了几天翻了十几篇，技术圈的、学术圈的、咨询圈的都在聊这个话题。专业性、前沿性都挺好，但有一个共同的问题：大词太多。Task、Trial、Trajectory、pass@k、HITL……别说没技术背景的HR和企业老板，我一个计算机科班出身的人，第一遍读也脑壳疼。

我就想，能不能换一种讲法——从IT、OD、Advisor三个视角，试着把这件事说清楚。

先说几个可能让你犯晕的词

Agent：不是"更聪明的ChatGPT"。ChatGPT是你问它答，Agent是你交代一个任务，它自己想办法完成——查资料、调工具、做判断、出结果。你可以把它理解成一个能独立干活的数字员工。

OD（组织发展）：不是玄学。OD就管三件事——组织该长什么样、人跟岗位怎么匹配、人跟人怎么协作。AI时代多了一件事：Agent跟人、Agent跟Agent怎么协作。

企业系统工程：一种看问题的方式——不盯着单个环节，盯整个链条。Agent没干好，不一定是Agent自己的问题，可能是工具不行、数据有问题、或者用的人不知道怎么用。系统思维就是"出了问题先查环境，再查当事人"。

Advisor（顾问）：站在企业外面往里看的人。好处是能看到内部看不到的东西，坏处是只看不干，最终干活还得企业自己的人。

好，翻译完了。

IT视角：技术圈怎么评，以及一个更重要的提醒

技术圈讨论Agent评估，核心框架可以概括成三件事：

第一，先定义清楚要干什么。 你说"帮我处理客户邮件"，太模糊了。你得说"把客户邮件分成三类——投诉的转给客服主管、询价的回复标准报价单、其他的归档——准确率不低于90%"。这跟HR写岗位说明书是一模一样的逻辑：岗位职责不能模模糊糊。

第二，同一件事跑N遍，看稳不稳定。 这里面有个HR听了会心一笑的概念：叫"pass@k"和"pass^k"。前者是说跑k次有一次成功就行，测的是能力上限，相当于面试表现。后者是说跑k次次次都得对，测的是可靠性底线，相当于日常工作表现。你招人的时候两种都看，评Agent也是。

第三，不看结果看过程。 Agent每一步干了什么、用了什么工具、为什么选A不选B，全部有日志。这是管人时做梦都想要的东西——人的工作过程是黑箱，Agent的工作过程是全透明的。

谁来评？三种方式：有标准答案的，直接写规则自动判——相当于客观题自动批改；没标准答案的，用另一个AI来评——相当于同行评议；高风险场景，人亲自审——相当于专家评审。三种方式各有漏洞，但叠在一起，漏洞就对不上了。这跟HR做绩效评估的路数一模一样：不能只靠一个人的打分，要多来源交叉验证。

以上是基本框架。但在讲"怎么评"之前，我觉得有一个更重要的提醒。

大部分场景不需要Agent。

Agent不是"更聪明的ChatGPT"。它增加复杂度、延迟和成本。如果你的任务规则清晰、不需要多步推理和判断，传统自动化就够了。先想清楚该不该用Agent，再想怎么评。

查资料的时候看到一个数据让我印象很深：顶尖AI模型做复杂Agent任务，成功率只有大约30%。30%是什么概念？你部署一个Agent，十次里有七次可能搞不定。如果你没有评估机制就把它放到生产环境，等于闭眼开车。

我拿自己做了个实验

写这篇文章的时候，我做了一件有意思的事：用同样的题目，让两个不同的Agent帮我写初稿。 一个叫Claw，一个就是现在帮你整理这些文字的这位。

实验条件不太一样。Claw是先上场的——我给了它一个比较模糊的题目，它自己琢磨，写出了一个版本。我看完之后觉得不行，推翻重来，又翻了大量参考资料、梳理了方法论框架，然后把明确的需求和参考资料给了第二位Agent。

结果呢？

如果只看产出——Claw写的初稿比较像一本操作手册，结构工整，表格清楚，信息密度高，但就是不太像一篇"给人看的文章"。第二位Agent写的更有故事感、更有"人味"、更像专栏该有的样子。

按照一般人的直觉，结论很简单：Claw不行，换掉。

但这是错的。

我后来认真想了一下：Claw接的是第一版模糊需求，没有参考资料，第一个上场没有任何"前人踩过的坑"可以参考。第二位Agent接的是经过两轮失败后想清楚的精准需求，有11篇精读笔记做知识库，还有一个完整的方法论框架当脚手架。

如果我只比产出，不比环境——那我就是在犯绩效评价最经典的错误：把系统的问题归到个人头上。

换到企业场景里，这个错误天天在发生。Agent不好用？换模型。换了还不好用？再换。从来没有人去查：提示词写清楚了吗？工具权限给够了吗？知识库更新了吗？上游数据质量行不行？用的人知道怎么用它吗？

大部分"Agent不好用"的问题，根源不在Agent本身。

这就是技术圈在讲的"评的不是Agent一个人，是Agent+工具+环境整个系统"。用大白话说：出了事先查环境，再查当事人。

OD视角：Agent就是一个岗位

读资料的时候，有一句话直接打中了我："AI Agent不是工具，是新型劳动力。"

如果Agent是劳动力，那它就不是IT系统——它是一个"员工"。只不过这个员工不领工资、不吃午饭、不会请假。

一旦接受这个前提，HR的整套方法论就有了用武之地。

Agent本质上就是一个组织岗位：它有职责（写在系统提示词里），有工具权限，有协作关系（跟人配合、跟其他Agent配合），有考核标准。它接收输入、加工处理、产出输出、接受评估——跟一个人类岗位没有本质区别。

那OD在干什么？OD就是在管"谁干什么、跟谁配合、怎么考核"。以前"谁"指的是人，现在多了一类"员工"叫Agent。

这里我想分享一个真实的体会。

几年前，我参与了一家科研企业的咨询项目。咨询团队负责数字化转型规划，从战略到流程，再到各业务的信息系统，全部做了详细设计。企业本身也有一定信息化基础，PLM、ERP等系统都初步建立了。

但企业领导觉得，数字化转型最大的障碍不是系统不够好，是：现有的信息系统都没用起来，新的规划怎么能够用起来？

我当时从人力资源和组织发展的角度提了一些建议：摸清员工实际工作中使用信息系统的真实情况，打通部门间的信息系统协同，建立跨部门信息系统协调小组，推动企业高管对信息系统的共识。这几件事做下来，效果非常不错。

回头看这段经历，我发现它跟今天企业上AI Agent面临的问题，结构一模一样。技术团队能把Agent搭起来、跑起来。但让Agent从"存在"变成"被真实使用"，这件事技术团队干不了，也不该他们干。工程师的逻辑是"系统上线=任务完成"，HR的逻辑是"系统上线=工作刚刚开始"。

这个分野，就是HR在AI时代的第一价值位。

具体怎么干？我试着梳理了一个五步框架：

第一步，战略澄清。 别急着选模型、搭Agent。先老老实实想清楚：企业要做什么？有什么能力和资源？当前最大的瓶颈是人不够用、流程太乱、还是决策太慢？不是看隔壁公司上了什么Agent你就跟着上——Agent不是军备竞赛，是岗位设置。你不需要设一个没活干的岗位。

第二步，岗位设计——把工作分成三类。 AI可以独立干的（数据录入、标准化报告），人机协作干的（简历筛选后HR终面、合同草拟后律师审核），必须人干的（战略决策、危机公关）。关键是"人机协作"这一类：谁先做？交接点在哪？Agent做到什么程度交给人？举个具体的例子：Agent筛完100份简历，给出10份推荐，HR看了之后可以推翻吗？可以——但需要记录推翻的原因。这个"记录原因"的动作，既让人能用起来（不信任时可以说不），又让Agent能越用越好（推翻的原因就是调提示词的素材）。

第三步，Agent岗匹配。 这跟招聘一个逻辑：人才画像→模型选型，岗位说明书→系统提示词，入职培训→知识库上传，试用期→"影子模式"。什么叫影子模式？Agent正常跑但不执行最终操作，让人看到它的决策，跟人的决策对比，逐步建立信任再放权。

第四步，动态评价——排查要按顺序来。 Agent做不好，别急着换模型，按这个顺序查：①提示词写清楚了吗？②工具描述准确吗、权限够吗？③知识库内容对吗、更新了吗？④上游给的数据质量行不行？⑤下游的人会正确使用Agent的产出吗？大部分问题根源在前四步，不在Agent本身。这就是企业系统工程的思维——绩效评价不能只看指标，要看整个链条。

第五步，持续改进。 Agent也需要"绩效管理"。该升级的升级，该调提示词的调提示词，该下线的下线。Agent的成本是可变成本——一个Agent设了不用、用不好、该升级没升级，跟养一个闲人没区别。

这个框架的核心思想就一句话：不是所有好的Agent岗位都要设。先搞清楚企业要做什么，把自己的能力和资源盘清楚，再决定要哪些Agent岗位。

五步总结一下：想清楚→分类→匹配→排查→改进。 每一步都不新鲜，每一步都是OD的老本行。

但有一件事跟管人不一样。你没法给Agent涨工资来激励它，你只能调它的工作指令、工具权限、考核标准。这是管Agent和管人的本质区别：

	管人	管Agent
稳定性	岗位相对固定	可随时拆分、重组、合并
过程可见	基本不透明	100%可追溯
改进方式	培训+激励+考核	调提示词+调工具+调标准
试错成本	高	极低——不行就调，调不好就撤

所以别怕试。Agent的试错成本极低，这是它最大的管理优势。大胆验证，不行就改。

Advisor视角：HR具体做什么？

说到底，企业老板和HR最关心的不是理论框架，是"我该干什么"。

三件事。

第一，做"岗位审计"。 识别企业里哪些工作任务适合交给Agent，哪些必须保留给人。不需要你会写代码——需要的是你对业务和人的理解。HR天天跟岗位打交道，这件事天然是你的。

第二，设计"协作流程"。 人跟Agent怎么配合？谁先做？交接点在哪？出了问题算谁的？Agent的建议，人可以推翻吗？画一张流程图，把人的角色和Agent的角色标清楚。协作流程没设计好，Agent能力再强也用不起来——就像我当年那家科研企业，系统建好了，跨部门协同没打通，一样用不起来。

第三，建立"Agent治理机制"。 定期review Agent的表现，校准AI评分器的偏差，决定Agent是"晋升"还是"淘汰"。这跟你主持人才盘点会的逻辑完全一样，只不过评价对象从人变成了Agent。

怎么判断协作效果好不好？看五个指标：任务完成速度有没有变快、决策质量有没有提升、AI采纳率有没有在涨、反馈有效率——员工提的改进建议有没有落实、错误修复速度——Agent出错后多久被发现和纠正。五个指标都不需要写代码，看的是"人机协同"的系统效能，不是Agent一个人的表现分数。

这三件事，都不需要你会写代码。但需要你完成三个转变：

认知上，从"管人"变成"管劳动力"——包括人和Agent。Agent是新型劳动力，HR不管，谁来管？

知识上，不需要变成技术专家，但得知道Agent能干什么、不能干什么、什么时候该用、什么时候不该用。

能力上，岗位审计、协作流程设计、Agent治理——这三样是HR在AI时代的核心新能力。好消息是，它们跟OD的基本功完全相通。

回头看我这几天的折腾——被一道题难住、翻了十几篇资料、拿两个Agent做了个实验——其实就搞明白了一件事：给Agent评绩效，本质上不是技术问题，是组织问题。

技术圈已经把评估框架搭好了——Task、Trial、Trajectory，够用了。但谁来用这个框架？谁来定义"什么叫好"？谁来保证Agent设了之后真的被用起来？谁来决定Agent该升级还是该淘汰？

这些事，HR做了几十年了。只不过以前管的是人，现在多了一种"员工"叫Agent。

HR不用慌。你手里那套OD方法论，换个对象一样好用。关键是敢不敢往前站一步——在技术团队搭Agent之前，就告诉他们：别急着搭，先想清楚这个"岗位"该不该设。

这篇东西，是我被一道题难住之后，翻了几天资料、拿两个Agent做了个实验、从三个视角梳理出来的一点思考。它一定不成熟。Agent绩效评价这个话题太新了，真正的实践者还少。但我越来越确信一件事：AI时代最大的障碍不是技术，是组织。系统建好了没人用，Agent部署了人不信——这个问题的解法，不在技术圈，在HR和OD的领地里。

或许你可以提出更好的问题。我们一起探索。

对了，不知道那位给我出题的IT圈朋友看到这里，会怎么想。这道题我抠了几天脑壳，折腾出来的答案未必对。但如果它能让更多做HR的人意识到——Agent的事，不是纯技术的事——那这道题就没白做。

孙大脑袋说AI · 第3篇

这个公众号记录我怎么用AI重新理解工作和生活——写文章、带娃、搭工具、踩坑，每一步都写下来。不是教学，是真实记录。

想看我搭的那些AI工具？ 扫码关注服务号「搞个锤子AI」，学业诊断、知识点百科、AI小工具都在那边。

想读后面的故事？ 关注「孙大脑袋说」，不保证周更，但保证每篇有料。

搞个锤子AI 品牌专栏 | 个人订阅号「孙大脑袋说」× 公司服务号「搞个锤子AI」