还在傻傻用AI当搜索框?别人的智能体已经替他打工、赚钱、搞副业了

今年一月初的一个晚上，你有没有试过一件挺离谱的事？

打开电脑，给一个叫Manus的Agent发了句话：“把我今年发过的所有公众号文章扒一遍，分析哪些选题阅读量最高、哪些标题套路最有效，写份报告，再挑出三个最近适合写的选题方向，排个优先级。”

然后你去洗澡了。

洗完回来，桌面上躺着一份十七页的PDF。标题、配图、数据图表、推荐理由全齐了。文末甚至还有一句它自己加的评论：“根据近三个月趋势，AI硬件类选题的阅读完成率比模型评测类高出百分之二十三，建议优先选这个方向。”

你盯着那份报告，心情复杂。一方面是爽——一个自己干至少要花六个小时的活儿，它二十多分钟搞定了。另一方面是有点慌——这东西一年前根本不存在，半年前还是个玩具，现在已经开始替你做判断了。

这是今年一月的真实体验。

现在是五月下旬。过去这四个月，如果你真的把一个Agent当成实习生来带，它已经替你干了多少活？哪些事它还是干不了？今天我们就来聊聊。

一、先把概念掰开：Agent不是问答机

所谓Agent，翻译过来叫智能体。跟你过去用的ChatGPT、Kimi、豆包，最大的区别是一个字：做。

过去的AI是问答机。你问什么它回答什么。它再聪明，也只是个会说话的百科全书。你让它帮你订机票，它会告诉你怎么订，但它不会真的去订。你让它帮你写代码，它写完一段丢给你，剩下的调试、运行、报错、修复，全是你自己的事。

Agent不一样。Agent有手有脚。你说一句话，它会自己拆解任务、调用工具、自己执行、自己检查结果，错了自己再来一遍。整个过程你不用管，它给你的不是答案，是结果。

举个最直白的例子。你用ChatGPT做竞品分析，它问你要什么数据、要不要图表、要什么风格。你一一回答之后，它给你一段文字。然后你把这段文字粘贴到Word里，自己排版、配图、改格式。

你用Agent做同样的事，它会自己去爬竞品官网、抓取应用商店数据、调用搜索引擎查最近新闻、自己写代码生成图表、整理成PDF，最后顺手发到你邮箱里。

中间这个过程，全是它自己琢磨的。你只说了一句话。

二、2026年过半了，Agent走到哪了？

年初的时候大家都在吵“2026是不是Agent元年”。现在回头看，这个争论本身已经没意义了。

更准确的说法是：2026年一季度，Agent从“极客玩具”变成了“可用的生产力工具”。

几个关键时间点，按实际发生的事重新捋一下：

· 1月：Manus国内版正式上线，虽然争议不断（有人说是套壳、有人说是营销），但它确实证明了多Agent协作干长任务这条路是通的。

· 2月：OpenAI的GPT-5低调开放API，没有开发布会，但价格比预期低了一个数量级。同月，字节的扣子空间推出企业版。

· 3月：Anthropic发布Claude 5，Computer Use能力从“演示级”升到了“干活级”。Cursor的周活用户数据翻了三倍。

· 4月：谷歌Gemini 3 Pro更新多模态能力，阿里通义千问开源了Qwen3。国内垂类Agent开始扎堆出现——电商客服、财务对账、小红书运营，每个领域都有几家跑出来了。

到了现在5月底，硅谷那边已经没人讨论“要不要用Agent”了。讨论的是“你怎么管理你的Agent团队”——有人在X上晒自己同时跑了50个Claude Code实例，有人用Agent自动处理客户支持，有人让Agent帮他运营整个Discord社群。

这不是科幻。这是这四个月真实发生的事。

三、当初的三大卡点，现在解决了吗？

年初很多文章说Agent卡在三个地方。现在半年过去了，我们一个个回看。

卡点一：可靠性

当时的问题：你让Agent订机票，99%的情况下能订对，但1%的概率会把目的地从上海订成上饶。没人敢放手让它独立干活。

现在怎么样了：改善了很多，但还不是100%。

编程Agent是最典型的。Cursor配合Claude 5，独立完成一个中等复杂度项目的成功率，从年初的60%左右提到了现在的80%以上。但生产环境的关键代码，仍然需要人工review——这是行业共识，短期内不会变。

不过有意思的是，垂类Agent的可靠性比通用Agent高得多。一个专门做订票的旅行Agent，配合OTA的API，错误率已经低于0.5%。因为它不需要“理解”你在说什么，它只需要执行一个很窄的任务。

结论：通用Agent还在L2级别（需要人监督），垂类Agent已经摸到L3（特定场景可放手）。

卡点二：上下文

当时的问题：你跟Agent说“把上次那份方案改一下，加上王总昨天的意见”，它一脸懵。不知道哪份方案，不知道王总是谁。

现在怎么样了：长记忆Agent开始普及。

年初只有少数产品能做这件事。现在，Claude 5默认支持100万token的上下文，配合记忆功能，它可以记住你和它过去一个月的所有对话。你不需要每次都从头交代背景，它会自己调取。

国内这边，Kimi K2的长上下文能力已经超过了大部分海外模型。扣子空间也上线了“工作区记忆”功能。

但有一个问题还没解决：跨会话的“隐性知识”。你跟Agent磨合了三个月形成的那些默契——它知道你偏好什么风格、习惯什么节奏——这些东西仍然很难显式地迁移到另一个Agent身上。每个Agent都得重新“带”。

结论：技术问题基本解决了，“带新人”的问题还没解决。

卡点三：成本

当时的问题：跑一个高质量Agent是真的烧钱。Claude Sonnet 4.5时期，一个复杂任务几美金就没了。

现在怎么样了：成本断崖式下跌。

GPT-5的token价格比去年底的GPT-4 Turbo降了约70%。Claude 5比Sonnet 4.5也便宜了将近一半。同样的任务，年初可能要花3-5美金，现在不到1美金。

更重要的是，开源模型追上来了。Qwen3、DeepSeek-V3这些模型在某些场景下已经可以接近闭源模型的水平，成本却低一个数量级。

有用户晒出的账单：今年1月花了大概400美金在API调用上。4月，同样的使用量，花了不到150美金。

结论：成本已经不是普通用户的障碍了。一个重度用户每月100-200美金，就能跑一个相当能干的Agent团队。

四、国内外的路数确实不一样

这半年的观察让人更确认一件事：海外做底层，国内做场景。

海外那边，OpenAI、Anthropic、Google先把基础模型做到极致，然后在模型之上长Agent。Claude 5的推理能力和工具调用，目前还是第一梯队。

国内这边，模型层跟得上的同时，垂类Agent的爆发力是真的猛。

随便举几个例子：

· 电商领域：已经有人用Agent做24小时客服，处理80%的常规咨询，人工只介入剩下的20%。

· 财务领域：自动对账、自动开发票、自动生成报表，一个小公司的财务工作半个Agent搞定。

· 内容领域：有人专门做了小红书爆款笔记Agent，输入产品卖点，输出三版不同风格的文案+配图建议。

这些垂类Agent对模型能力的要求没那么高，但对场景理解和工作流打磨要求极高。而这件事，中国团队做得又快又便宜。

判断没变：这波Agent浪潮里，真正赚到钱的国内公司，大部分会是做垂类的。

五、那么，Agent到底能替你干哪些活？

如果你从年初开始带一个Agent当实习生，到现在四个月，它可以替你干这些事：

1. 竞品分析：每个月自动爬一遍同行的内容、数据、选题趋势，生成一份报告。以前你可能每个月花两天做这件事，现在Agent做，你只花二十分钟看报告。

2. 素材整理：你每天随手记的一些灵感碎片、生活观察，它会自动整理、打标签、归档。写文章的时候搜一下关键词，相关的素材就出来了。

3. 初稿生成：像这篇文章，初稿完全可以由Agent按你给的框架生成。你要做的更多是删、改、调整角度、加个人化的东西。

4. 数据复盘：每篇文章发布后，它会自动拉数据，跟前几篇对比，告诉你哪里做得好、哪里要改进。

哪些事它还是干不了？

· 找那个“意外”的角度。它能想出“情理之中”的角度，但“预料之外”的那个拐弯，还是得靠你自己。

· 判断什么该写、什么不该写。它能执行任务，但不能判断“这个任务本身值不值得做”。

· 跟人打交道。采访、约稿、跟博主沟通情绪——这些事它碰都碰不了。

所以你的精力确实会被解放出来，但不是用来“干更多活”。而是用来做那些它干不了的事：判断、审美、连接人。

六、半年过去了，给你三条建议

如果你年初没开始用Agent，现在开始还不晚。

第一，找一个Agent，把它当实习生带。不是“玩一玩”，是真的给它派活、给它反馈、帮它纠错。像带一个新人一样带它，它会越来越懂你。

第二，搞清楚你的工作中，哪些是“任务”，哪些是“判断”。任务交给Agent，判断留在自己手里。你越早分清楚，你越值钱。

第三，别恐慌。这四个月最大的感受是：Agent不是来取代人的，它是来逼你往上走的。它把执行层的事干了，你就只能去做决策层的事。这不是威胁，这是机会。

2026年过半了。

如果你问这半年最值得做的一件事是什么，答案很简单：找一个Agent，把它当成你的实习生，认真带它到年底。

半年后的你，会感谢今天动手的自己。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧。

谢谢你看这篇文章，下次再见。