5月28号凌晨,Anthropic发了Claude Opus 4.8。
刷完官方公告、系统卡、Dynamic Workflows博客和X上十几条早期反馈之后,脑子里蹦出来的第一个念头:
AI编程这件事,从「雇了一个实习生」变成了「签了一家施工队」。
以前用Claude Code写代码,它像一个聪明但需要盯着的初级工程师——你得把任务拆好、把上下文喂足、然后守在旁边检查它有没有偷偷埋bug。它干活,你兜底。
现在?扔给它一句「把这栋楼翻新一遍」,它自己画施工图、自己派油漆工和电工同时干活、自己验收、自己返工——回来的时候只看到一份干干净净的竣工报告。
这不是推销腔,是Dynamic Workflows的底层逻辑。
———
Dynamic Workflows:一支施工队,不是一个人
这是Opus 4.8最值得讲的新功能。
在Claude Code里说「帮我把这个项目的认证模块全部重写」,以前的做法是一个文件一个文件改,前后串行。如果中间发现某个设计选择有问题,后面可能全白干。
Dynamic Workflows的做法完全不同——Claude 自己写编排脚本,把任务拆成几十个甚至几百个子任务,同时派给多个子智能体并行执行:
· 有人分析现有认证逻辑
· 有人写新的接口层
· 有人把旧的调用点全部找出来
· 有人专门盯着测试用例,确保改动不破坏现有功能
· 最后还有人做交叉验证——A写的代码,B去挑刺
所有这些同时发生。
装修队的画面:以前的Claude是一个全能工人。你一说「翻新厨房」,他先刷墙、再铺地砖、再换水管、再装橱柜。中途发现墙后面的水管锈了要换,之前铺的地砖可能得撬开重来。
Dynamic Workflows是一个工头+一支施工队。工头先画施工图,然后水电工改管、泥瓦工铺砖、油漆工刷墙——同时开工。每个工人干完活有质检员验收。不合格就返工,直到通过。
Anthropic博客里给了真实案例:Jarred Sumner用Dynamic Workflows把Bun从Zig完整移植到Rust——75万行代码,11天,99.8%的测试套件通过。
一个workflow负责映射每个结构体的生命周期,另一个workflow同时写所有.rs文件的初稿(几百个智能体并行,每个文件配两个reviewer),修复循环驱动编译和测试直到跑通。最后还有一个隔夜workflow处理数据拷贝优化,每个优化单独开PR给人终审。
75万行代码的跨语言移植,11天。相当于把一栋10层写字楼从砖混改成钢架,一个月内完工——靠的就是同时上几十组工人。
⚠️ 一个要命的细节:token消耗远超普通会话。Anthropic原话是「consumes meaningfully more usage」。第一次触发时Claude Code会弹确认框,企业管理员可以关闭这个功能。别上来就拿大项目试,先用小任务摸清楚消耗量。
———
Fast Mode:同一批老师傅,喝了咖啡
以前Fast Mode用轻量模型——脑子不够好使,但快。现在 Fast Mode直接跑完整版Opus 4.8,同样推理深度、同样1M token上下文,响应速度2.5倍,价格比以前还便宜了3倍——$10/M输入,$50/M输出。
装修队翻译:以前的「快速模式」是叫学徒工——手脚快但活糙。现在是同一批老师傅,每人喝了两杯咖啡,手速翻倍,工钱还降了。
这对Dynamic Workflows意义特别大。并行几百个子智能体的时候,延迟是最大瓶颈——每个子智能体等响应的时间加起来能拖死整个workflow。Fast Mode砍掉大半等待时间,整体效率直接起飞。
———
Effort Control:你决定多想一会儿还是快点干
新增思考力度选择器:Low → Medium → High → Extra(xhigh)→ Max。
不是简单的快慢开关。不同力度下模型内部推理的token数量完全不同。High是默认档,Extra适合高难度异步任务,Max把推理做到最充分但也最烧token。
装修队:Low是「师傅大概看一眼就动手」,High是「先量一遍尺寸再干」,Max是「量三遍、画两版草图、打一个样板、确认无误再动工」。遇到承重墙能不能拆——用Max。换个门把手——Low够了。
Claude Code里还有个 ultracode 设置——打开后effort自动设到xhigh,Claude自己判断什么时候启用Dynamic Workflows,不需手动喊「create a workflow」。
———
跑分和实际表现:数字好看了,但人味儿才是关键
SWE-Bench Pro 69.2%(vs 4.7的64.3%),计算机使用基准 84%,法律智能体基准首次突破10%全线通过率。
数字不错,但看完官方公告和早期反馈,真正升级点在两个更微妙的地方:
诚实度翻了几倍。Anthropic做了大量训练让模型不乱吹牛——不要把没干活说成干完了。Opus 4.8让它写的代码带着未说明缺陷直接放过的概率,比4.7低了约 4倍。
装修队:以前的师傅偶尔指着没抹平的墙面说「已经很平了」——不是故意骗你,是它自己都没意识到不达标。现在的师傅会主动跑过来说「这块墙我重抹三遍还是不平,换个工艺?」
这个能力比跑分重要得多。AI编程最大的问题不是「能力不够」,是「不知道自己能力不够还硬上」。4倍更诚实,花在检查AI产出上的时间直接砍了75%。
判断力更像高级工程师。Cursor、Devin、Thomson Reuters、Databricks的反馈指向同一个方向:Opus 4.8不只是「更好用」,而是开始像一个有判断力的工程师——「它会问对的问题、发现自己的错误、在你给的方案不对时反驳你」。
Cursor说工具调用效率明显提升,「花更少的步骤达到同样的智能水平」。Devin说修复了4.7的「注释啰嗦」和「工具调用bug」。Thomson Reuters说法律文档一致性提升明显。
———
价格没变,格局在变
定价完全延续4.7——$5/M输入,$25/M输出。没涨。
2026年AI圈的一个信号:GPT-5.5先发,各家拼性能和价格。Anthropic选「性能提升价格不变」,同时Fast Mode降价3倍。策略是让你用同样的钱买到更多智能,不是更少的钱买到差不多的智能。
两个附加更新:Messages API现在支持在消息数组中间插入系统指令(不用破坏prompt cache),以及Anthropic预告Mythos级别模型将在「未来几周内」向所有用户开放。
———
不是所有工地都适合叫施工队
扫兴但必须说。
Token消耗。Dynamic Workflows一次大型迁移可能烧掉几百美元甚至更多的token。小项目用workflow是杀鸡用牛刀。
1M上下文是把双刃剑。一个干了14年的principal engineer在X上写了100小时体验:1M上下文可以是个新手陷阱——把所有文件扔进去看起来很聪明,实际上有效上下文越聚焦越好。没有精心设计的guardrails,Claude Code就像一个赶deadline的高级工程师——倾向于打补丁而不是做正确重构。
验证不能省。Dynamic Workflows能做交叉验证,但漂亮的重构第一次运行不一定能过。诚实不等于不犯错。
门槛在变高。初级用户和高级用户之间的差距从来没有这么大过。高级用户建CLAUDE.md、配subagent、写hooks——他们不是在「跟AI聊天」,是在「组建一支工程团队」。差距在Dynamic Workflows时代会被进一步放大。
———
一句话总结
AI编程从「帮你写代码」变成了「帮你管项目」。
Claude Code + Opus 4.8 + Dynamic Workflows的能力边界,已经从单文件补全推到了跨仓库级工程迁移。11天、75万行代码的跨语言移植——一年前这是科幻。
但反过来看:工具能力越强,使用者的判断力越值钱。一支施工队能同时开二十个工作面,如果连图纸都看不懂,二十个工人同时乱干的速度比一个人乱干还要可怕。
Anthropic说「Opus 4.8是一个温和但切实的进步」。确实温和——没掀翻牌桌。但它把「AI能独立做多大事」这个上限又推了一格,而且推的方式不是「更强的大脑」,而是「能同时用多个大脑协同工作」。
后者比前者可怕得多。
———
⚠️ 免责声明:本文仅为技术产品观察和个人使用体验分享,不构成任何投资建议。文中提及的公司和产品仅作为技术讨论对象,不代表任何买入/卖出/持有建议。AI领域变化极快,文中数据截至2026年5月28日,可能已发生变化。投资有风险,决策需自行判断。
我是玄投君,下次见。
夜雨聆风