一、🔍 炒作与现实的"Gap"(差距)
1. 演示 ≠ 实际能力
- Devin案例:Cognition公司开发的Devin("全球首位AI程序员")确实拿到1.76亿美元B轮融资,估值达20亿美元,客户包括Ramp、MongoDB等大公司。
- 但:有35年经验的软件工程师逐帧分析Devin的宣传视频,发现其"自己生成错误代码再修复"(自修自建),且处理的任务是演示者预先搜索挑选的,并非随机应对。
- 实测结果:某开发团队与Devin共事一个月,在20个实际任务中成功率极低,仅完成3项简单任务,复杂任务需人工重写。
2. 错误率指数级放大(致命问题)
一位实际构建12个生产级Agent系统的开发者指出:
> "多步骤流程中的错误率会呈指数级放大。即便每一步成功率有95%,到第20步时整体成功率只剩36%。而生产环境的要求是99.9%起步。"
这意味着:AI越"自主"执行任务链,可靠性越低,目前还无法胜任复杂的企业经营闭环。
---
二、💰 商业模式:从"卖工具"到"卖结果"道远
当前主流仍是大号"工具人"
根据红杉资本投资的AI商业化公司Paid创始人Manny Medina分析:
模式 现状 代表
AaaT (Agent as a Tool) 已落地,按SaaS订阅/使用量收费 Cursor、Glean
AaaR (Agent as a Result) 探索期,按结果付费理想但难执行 法律合同审查、客服
AaaB (Agent as a Business) 早期,撮合交易抽成 部分医疗/销售平台
AaaE (Agent as Economy) 概念期,Agent间自主交易 未实现
关键现实:
- 目前多数AI Agent公司的收入是 "Vibe Revenue"(氛围收入) ——靠POC(概念验证)拿单,但续约时客户会重新评估真实价值。
- 按结果计费面临价值主观性(对客户来说,旅行计划vs行业分析价值不同,但token消耗可能差10倍)和成本不可控难题。
---
三、🧠 技术社区的一线反馈
Hacker News & Reddit的"冷水"
- 资深架构师类比:"使用AI coding agent就像被提拔为技术主管——你需要清楚解释需求,让它阐述方案,给出反馈,然后极其仔细地审查结果。这跟管理实习生没什么两样。"
- 对冲基金从业者:客户需要的不是"订机票"的花哨演示,而是网页监控、数据抓取、财报提取等简单可靠的自动化工作流。
核心局限总结
1. 创新能力有限:基于现有模式,无法做架构级创新
2. 复杂业务理解不足:特定领域深度逻辑理解不够
3. 异常处理能力弱:遇到预料外情况应对能力不足
4. 成本结构恶化:Anthropic CEO预测未来模型训练成本将达50-100亿美元,推理成本短期内不降反升
---
四、📊 权威机构的阶段判断
华泰证券研究将AI Agent分为五个阶段:
阶段 代表 状态
工具型 邮件分类 已落地
认知型 Manus、Coze 发展中
环境交互型 Genspark 试验阶段
自主型 Devin进阶版 技术验证期
端到端通用 完全自主经营企业 未出现
---
五、✅ 结论:理性看待"AI赚钱"新闻
真实部分:
- AI确实正在从"辅助工具"向"执行者"演进
- 特定领域(如客服、代码清理、数据提取)的AI Agent已开始按效果收费
- "超级个体+AI团队"模式正在涌现(如Midjourney仅11人创造数亿美元收入)
夸大/虚假部分:
- "完全自主"经营企业:目前AI无法独立完成复杂业务闭环,必须有人类在关键决策点介入(Human-in-the-loop)
- "躺着赚钱":当前AI Agent的运维、监督、纠错成本极高,/token成本随任务复杂度指数增长
- 通用性:现有AI在预定义、文档完善的架构中表现好,开放场景下"永远无法从训练数据中找到第一性原理"
投资建议:警惕打着"完全自主Agent"旗号的初创公司(因经济模型不成立),关注在特定垂直领域提供明确边界服务的"超级助手"型产品。
夜雨聆风