别学 AI,学当甲方

AI 原生人才的核心能力是"验收"

GitHub 上有个项目，专门用大厂 PUA 话术逼 AI 干活，三周拿了一万颗星。听着荒诞，但它揭示了一个正在发生的转变：跟 AI 打交道的方式，正在从"学习使用"变成"管理验收"。

一个荒诞的项目，一个真实的趋势

今年三月，一个叫 PUA 的开源项目在 GitHub 上炸了。

做的事情很简单：把互联网大厂那套绩效管理话术，塞进 AI 编程助手的 System Prompt 里。比如 AI 说"这个 bug 我搞不定"，它就回一句——"你这个 bug 都解决不了，我怎么给你打绩效？"

荒诞吗？荒诞。但数据不荒诞。

+36%

使用 PUA 话术后，AI 的 Bug 修复成功率提升 36%

隐藏问题发现率 +50%，工具调用次数 +50%

项目作者做了 9 个真实调试场景、18 组对照实验。结论只有一句：AI 不是能力不行，是太容易放弃了。

以前 AI 试 2 步就说"我建议你手动检查一下"，装上这套话术之后，被逼着试到第 9 步，逐条检查错误日志、逐个排查环境依赖，最后真把根因挖出来了。

一万个开发者用星标投了票。他们投的不是一个搞笑项目，而是一种新的共识——跟 AI 协作，本质上是一场管理行为。

协作的本质是管理，跟对面坐的是人还是 AI 无关

· · ·

84% 的人在用 AI，但大多数人用错了姿势

先看一组数字。

2026 年，全球 84% 的开发者在使用 AI 编程工具。生产环境中 25%-41% 的代码由 AI 生成。GitHub Copilot 用户突破两千万。国内的 Cursor、通义灵码、CodeBuddy 也在快速渗透。

看起来 AI 已经是标配了。但实际情况没那么美好：

实际生产力提升只有 10%-30%。跟工具厂商宣传的"效率翻倍"差了一大截。

—— DX 2026 开发者生产力调查，样本量 135,000+

差距不在工具上。大部分人还停留在"学习怎么用 AI"的阶段——学 prompt 技巧、学工具操作、学各种快捷键。有用，但只是入门。

真正拉开差距的，是用完之后那个动作：你有没有验收。

很多人让 AI 写完一段代码，扫一眼觉得"看起来没问题"，就直接提交了。三天后线上出 bug，一查，AI 生成的代码没有处理边界情况。这不是 AI 的问题——你请了个外包，不验收交付物，出了事怪谁？

· · ·

什么是"AI 原生人才"？不是会用 AI 的人

工信部 2025 年第三季度的数据显示，国内 AI 原生研发人才缺口达 47 万。到 2030 年，这个数字预计扩大到 400-500 万。

但市场缺的不是"会写 prompt 的人"——这个门槛已经低到人人都会了。真正缺的，是一种新角色。

我给它起了个不太学术的名字：AI 甲方。

你跟 AI 的关系，不应该是"学生和老师"，应该是"甲方和乙方"。你是提需求的人，AI 是干活的人。你要做的不是学会怎么用它，而是学会怎么管它。

一个类比

你不需要自己会砌墙，但你得知道这面墙砌得正不正。你不需要自己会写代码，但你得看得出这段代码有没有坑。甲方最值钱的地方，从来不是执行，是验收。

所以我的观点很明确：AI 原生人才的看家本领不是"使用 AI"，是"验收 AI"。

验收的本质，是对结果负责

· · ·

怎么当一个好甲方

下面这些不是理论，是我这两年跟 AI 高强度协作后踩出来的。

先说最基本的：信任它，但别惯着它

AI 跟人最大的区别：它说话非常自信，哪怕在瞎编。

这个特点叫"幻觉"。它不会说"这个我不确定"，会一本正经给你一个看起来完美的答案，但可能是错的。就像那种特别能说的外包，交付时信心满满，你一验收发现满是窟窿。

所以永远假设 AI 的输出需要验证。写完代码追一句"给我写单测"；生成一段分析追一句"列出可能存在的问题"。AI 检查自己的能力远比你想象的强——前提是你得要求它。

验证之后呢？别客气，直接挑刺。

普通人跟 AI 的对话是这样的：

"帮我写一个用户注册功能。"AI 给了一段代码。"谢谢，看起来不错。"

而我一般是这样的：

"帮我写一个用户注册功能。"AI 给了一段代码。"密码没做强度校验。邮箱格式没验证。注册失败的错误处理呢？并发场景下用户名重复怎么办？重写。"

AI 不会受伤，不会离职，不会在背后说你坏话。你越挑剔，它给你的结果越好。PUA 那个项目有效的原因就是——它设了 7 项检查清单，一项没做完不准说"搞不定"。

设标准，卡验收，不通过就打回重做。

别纠结过程，盯住结果

很多人花大量时间研究 prompt 怎么写、参数怎么调、哪个模型跑分高。有用，但正在快速贬值。模型几个月升级一次，今天的最佳 prompt 下个月可能就废了。

你不会问装修师傅"你用什么牌子的锤子"——你只看墙砌得直不直。管 AI 也一样，把注意力从"怎么让它干活"转到"它干的活好不好"。

最容易被忽略的一点：持续加压

AI 有个隐蔽的毛病：它倾向于给你一个"差不多"的答案，不是最优解。大语言模型训练时学的是"最可能的下一个 token"，不是"最好的答案"。所以默认输出是平庸但正确。

破解方法只有一个字：追。

"还有更好的方案吗？""这个方案缺点是什么？""性能要求提高十倍呢？""你确定这是最优解？"

每多追一轮，质量上一个台阶。第一轮 60 分，追两轮到 80，再结合你的判断调整，逼近 95。

一个真实的例子

上个月我让 AI 设计一个数据聚合的架构方案。第一版中规中矩，经典的 ETL 三层架构。我追了一句"如果数据源从 5 个变成 50 个呢？"，它重新设计了一版基于事件驱动的方案。我又追"延迟敏感的场景怎么办？"，它补上了热路径和冷路径的分离策略。三轮追问，方案从"能用"变成了"好用"。

好甲方永远在加压。不是刁难，是把乙方的能力挤干净。

加压不是刁难，是对结果负责

· · ·

拉个对比，一目了然

理论说完了，看看两种人的操作差在哪：

提需求

普通用户："帮我写个XX功能"

AI 原生人才："写XX功能，覆盖三个边界场景，性能要求XX，错误处理包含XX"

看输出

普通用户："看起来不错，谢谢"

AI 原生人才："竞态条件没处理，逻辑可简化，错误提示不友好。改。"

遇到问题

普通用户："换个 AI 工具试试"

AI 原生人才："贴日志，先查环境再查依赖最后查逻辑"

心态

普通用户："AI 好厉害"

AI 原生人才："AI 是工具，我对结果负责"

区别不在 prompt 写得多花哨。在于谁真正对输出负了责。

· · ·

从今天开始练验收

三个可以立刻上手的方法：

第一，AI 给完结果，默认再追一轮。不追问，你拿到的永远是六十分答案。养成条件反射就行。

第二，准备一份验收清单。不同场景不同清单。写代码检查边界、并发、错误处理、安全性；写文案检查事实准确性、逻辑连贯性、语气一致性。不用多，五六条，关键是每次都过一遍。我自己用 Notion 记了一个模板，每次 AI 交活就拉出来对着勾。

第三，让 AI 互相验收。一个 AI 写，另一个 AI review。或者同一个 AI 换一个上下文窗口做检查。你当裁判看双方意见，最终拍板。我有时候让 Claude 写完代码，再开一个新对话把代码贴进去说"你来 review 这段代码"，经常能揪出第一轮漏掉的东西。

· · ·

写在最后

回到开头那个 PUA 项目。

一万个开发者给它点了星标，不是觉得好笑。是他们都被 AI"糊弄"过——明明有能力干好，偏偏只给你一个六十分的交差版本。你不较真，它就滑过去了。

我自己也踩过这个坑。去年底有段时间特别依赖 AI 写代码，生成完扫一眼就提交。后来线上出了个并发 bug，排查了一整天，发现根因就是 AI 漏掉了一个锁。那之后我养成了一个习惯：AI 写完的东西，我至少要用找茬的心态过一遍。

说到底，"会用 AI"这件事正在快速贬值，就像十年前"会用搜索引擎"一样。

但有一样东西不贬值——你对结果的判断力。AI 给你十个方案，你能看出哪个靠谱、哪个在瞎编，这个能力值钱。至于 prompt 怎么写、模型怎么选，那些都是会过时的技巧。

别花时间学怎么伺候 AI。

花时间学怎么验收它的活儿。

甲方的世界里，不存在"差不多就行"。

参考资料

1. PUA - GitHub 开源项目（10.5k Stars），2026.03

2. DX Developer Productivity Survey 2026，样本量 135,000+

3. AI Coding Statistics 2026: 84% 开发者使用 AI 工具

4. 工信部 2025Q3 数据：AI 原生研发人才缺口 47 万

5. JetBrains Developer Survey 2026: AI Coding Tools at Work

6. 中国人工智能人才供需比 1:10（数字中国建设峰会，2025.05）

- END -

觉得有用就点个「在看」，能帮到更多人