今年一月初的一个晚上,你有没有试过一件挺离谱的事?
打开电脑,给一个叫Manus的Agent发了句话:“把我今年发过的所有公众号文章扒一遍,分析哪些选题阅读量最高、哪些标题套路最有效,写份报告,再挑出三个最近适合写的选题方向,排个优先级。”
然后你去洗澡了。
洗完回来,桌面上躺着一份十七页的PDF。标题、配图、数据图表、推荐理由全齐了。文末甚至还有一句它自己加的评论:“根据近三个月趋势,AI硬件类选题的阅读完成率比模型评测类高出百分之二十三,建议优先选这个方向。”
你盯着那份报告,心情复杂。一方面是爽——一个自己干至少要花六个小时的活儿,它二十多分钟搞定了。另一方面是有点慌——这东西一年前根本不存在,半年前还是个玩具,现在已经开始替你做判断了。
这是今年一月的真实体验。
现在是五月下旬。过去这四个月,如果你真的把一个Agent当成实习生来带,它已经替你干了多少活?哪些事它还是干不了?今天我们就来聊聊。
一、先把概念掰开:Agent不是问答机
所谓Agent,翻译过来叫智能体。跟你过去用的ChatGPT、Kimi、豆包,最大的区别是一个字:做。
过去的AI是问答机。你问什么它回答什么。它再聪明,也只是个会说话的百科全书。你让它帮你订机票,它会告诉你怎么订,但它不会真的去订。你让它帮你写代码,它写完一段丢给你,剩下的调试、运行、报错、修复,全是你自己的事。
Agent不一样。Agent有手有脚。你说一句话,它会自己拆解任务、调用工具、自己执行、自己检查结果,错了自己再来一遍。整个过程你不用管,它给你的不是答案,是结果。
举个最直白的例子。你用ChatGPT做竞品分析,它问你要什么数据、要不要图表、要什么风格。你一一回答之后,它给你一段文字。然后你把这段文字粘贴到Word里,自己排版、配图、改格式。
你用Agent做同样的事,它会自己去爬竞品官网、抓取应用商店数据、调用搜索引擎查最近新闻、自己写代码生成图表、整理成PDF,最后顺手发到你邮箱里。
中间这个过程,全是它自己琢磨的。你只说了一句话。
二、2026年过半了,Agent走到哪了?
年初的时候大家都在吵“2026是不是Agent元年”。现在回头看,这个争论本身已经没意义了。
更准确的说法是:2026年一季度,Agent从“极客玩具”变成了“可用的生产力工具”。
几个关键时间点,按实际发生的事重新捋一下:
· 1月:Manus国内版正式上线,虽然争议不断(有人说是套壳、有人说是营销),但它确实证明了多Agent协作干长任务这条路是通的。
· 2月:OpenAI的GPT-5低调开放API,没有开发布会,但价格比预期低了一个数量级。同月,字节的扣子空间推出企业版。
· 3月:Anthropic发布Claude 5,Computer Use能力从“演示级”升到了“干活级”。Cursor的周活用户数据翻了三倍。
· 4月:谷歌Gemini 3 Pro更新多模态能力,阿里通义千问开源了Qwen3。国内垂类Agent开始扎堆出现——电商客服、财务对账、小红书运营,每个领域都有几家跑出来了。
到了现在5月底,硅谷那边已经没人讨论“要不要用Agent”了。讨论的是“你怎么管理你的Agent团队”——有人在X上晒自己同时跑了50个Claude Code实例,有人用Agent自动处理客户支持,有人让Agent帮他运营整个Discord社群。
这不是科幻。这是这四个月真实发生的事。
三、当初的三大卡点,现在解决了吗?
年初很多文章说Agent卡在三个地方。现在半年过去了,我们一个个回看。
卡点一:可靠性
当时的问题:你让Agent订机票,99%的情况下能订对,但1%的概率会把目的地从上海订成上饶。没人敢放手让它独立干活。
现在怎么样了:改善了很多,但还不是100%。
编程Agent是最典型的。Cursor配合Claude 5,独立完成一个中等复杂度项目的成功率,从年初的60%左右提到了现在的80%以上。但生产环境的关键代码,仍然需要人工review——这是行业共识,短期内不会变。
不过有意思的是,垂类Agent的可靠性比通用Agent高得多。一个专门做订票的旅行Agent,配合OTA的API,错误率已经低于0.5%。因为它不需要“理解”你在说什么,它只需要执行一个很窄的任务。
结论:通用Agent还在L2级别(需要人监督),垂类Agent已经摸到L3(特定场景可放手)。
卡点二:上下文
当时的问题:你跟Agent说“把上次那份方案改一下,加上王总昨天的意见”,它一脸懵。不知道哪份方案,不知道王总是谁。
现在怎么样了:长记忆Agent开始普及。
年初只有少数产品能做这件事。现在,Claude 5默认支持100万token的上下文,配合记忆功能,它可以记住你和它过去一个月的所有对话。你不需要每次都从头交代背景,它会自己调取。
国内这边,Kimi K2的长上下文能力已经超过了大部分海外模型。扣子空间也上线了“工作区记忆”功能。
但有一个问题还没解决:跨会话的“隐性知识”。你跟Agent磨合了三个月形成的那些默契——它知道你偏好什么风格、习惯什么节奏——这些东西仍然很难显式地迁移到另一个Agent身上。每个Agent都得重新“带”。
结论:技术问题基本解决了,“带新人”的问题还没解决。
卡点三:成本
当时的问题:跑一个高质量Agent是真的烧钱。Claude Sonnet 4.5时期,一个复杂任务几美金就没了。
现在怎么样了:成本断崖式下跌。
GPT-5的token价格比去年底的GPT-4 Turbo降了约70%。Claude 5比Sonnet 4.5也便宜了将近一半。同样的任务,年初可能要花3-5美金,现在不到1美金。
更重要的是,开源模型追上来了。Qwen3、DeepSeek-V3这些模型在某些场景下已经可以接近闭源模型的水平,成本却低一个数量级。
有用户晒出的账单:今年1月花了大概400美金在API调用上。4月,同样的使用量,花了不到150美金。
结论:成本已经不是普通用户的障碍了。一个重度用户每月100-200美金,就能跑一个相当能干的Agent团队。
四、国内外的路数确实不一样
这半年的观察让人更确认一件事:海外做底层,国内做场景。
海外那边,OpenAI、Anthropic、Google先把基础模型做到极致,然后在模型之上长Agent。Claude 5的推理能力和工具调用,目前还是第一梯队。
国内这边,模型层跟得上的同时,垂类Agent的爆发力是真的猛。
随便举几个例子:
· 电商领域:已经有人用Agent做24小时客服,处理80%的常规咨询,人工只介入剩下的20%。
· 财务领域:自动对账、自动开发票、自动生成报表,一个小公司的财务工作半个Agent搞定。
· 内容领域:有人专门做了小红书爆款笔记Agent,输入产品卖点,输出三版不同风格的文案+配图建议。
这些垂类Agent对模型能力的要求没那么高,但对场景理解和工作流打磨要求极高。而这件事,中国团队做得又快又便宜。
判断没变:这波Agent浪潮里,真正赚到钱的国内公司,大部分会是做垂类的。
五、那么,Agent到底能替你干哪些活?
如果你从年初开始带一个Agent当实习生,到现在四个月,它可以替你干这些事:
1. 竞品分析:每个月自动爬一遍同行的内容、数据、选题趋势,生成一份报告。以前你可能每个月花两天做这件事,现在Agent做,你只花二十分钟看报告。
2. 素材整理:你每天随手记的一些灵感碎片、生活观察,它会自动整理、打标签、归档。写文章的时候搜一下关键词,相关的素材就出来了。
3. 初稿生成:像这篇文章,初稿完全可以由Agent按你给的框架生成。你要做的更多是删、改、调整角度、加个人化的东西。
4. 数据复盘:每篇文章发布后,它会自动拉数据,跟前几篇对比,告诉你哪里做得好、哪里要改进。
哪些事它还是干不了?
· 找那个“意外”的角度。它能想出“情理之中”的角度,但“预料之外”的那个拐弯,还是得靠你自己。
· 判断什么该写、什么不该写。它能执行任务,但不能判断“这个任务本身值不值得做”。
· 跟人打交道。采访、约稿、跟博主沟通情绪——这些事它碰都碰不了。
所以你的精力确实会被解放出来,但不是用来“干更多活”。而是用来做那些它干不了的事:判断、审美、连接人。
六、半年过去了,给你三条建议
如果你年初没开始用Agent,现在开始还不晚。
第一,找一个Agent,把它当实习生带。 不是“玩一玩”,是真的给它派活、给它反馈、帮它纠错。像带一个新人一样带它,它会越来越懂你。
第二,搞清楚你的工作中,哪些是“任务”,哪些是“判断”。 任务交给Agent,判断留在自己手里。你越早分清楚,你越值钱。
第三,别恐慌。 这四个月最大的感受是:Agent不是来取代人的,它是来逼你往上走的。它把执行层的事干了,你就只能去做决策层的事。这不是威胁,这是机会。
2026年过半了。
如果你问这半年最值得做的一件事是什么,答案很简单:找一个Agent,把它当成你的实习生,认真带它到年底。
半年后的你,会感谢今天动手的自己。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧。
谢谢你看这篇文章,下次再见。
夜雨聆风