Claude Opus 4.8 发布:这次重点不是“更聪明”,而是更像一个能干活的工程团队
Anthropic 发布了 Claude Opus 4.8。
价格和上一代 Opus 4.7 持平。听起来平平无奇?别急。
这次真正值得看的,不只是模型分数涨没涨,而是 Claude Code 里多了一个很有野心的新能力:dynamic workflows,动态工作流。
它的目标很直接:
你丢给 Claude 一个大工程任务,它不再只像一个聊天窗口慢慢回你,而是像拉起一个临时工程小队,拆任务、并行处理、互相检查、反复修正,直到结果收敛。
听起来有点猛,也确实挺烧 token。咱们拆开讲。
Opus 4.8 最大的变化:更诚实了
很多人用 AI 写代码,最怕什么?
不是它不会。
是它不会还装会。
比如你问它:
这个 bug 是不是因为缓存没清?
它自信满满回你一大段,顺手还编了几个不存在的函数名。你照着改,项目直接炸。然后你花半小时排查,发现它从第一句就开始跑偏。
Opus 4.8 这次强调的一个变化,就是更愿意承认不确定。
它更常见的表现会是:
- “这里信息不够,我需要看一下调用链。”
- “我目前只能确认 A,不确定 B。”
- “这个方案可能影响另一个模块,建议跑测试验证。”
- “我还没完成全部检查,当前结论只覆盖这些文件。”
这类回答看起来没那么“爽”,却更像靠谱工程师。
真干项目的人都懂:
不确定就说不确定,比瞎编答案值钱多了。
尤其是跑长时间 agent 任务时,这点很重要。
你不可能一直盯着 Claude 看它每一步在干嘛。你希望它自己知道:
- 哪些地方已经检查过;
- 哪些地方还没覆盖;
- 哪个结论证据充足;
- 哪个修复只是猜测;
- 当前任务有没有偏离目标。
Opus 4.8 在这类“自我判断”上更稳。不是魔法,但少一点胡来,就已经很香了。
fast mode:同一个模型,跑得更快
这次还上线了一个很实用的东西:fast mode,快速模式。
它还是同一个 Claude Opus 4.8,只是速度更快。
官方给出的方向是:
- 速度大约快 2.5 倍;
- 成本比之前低不少;
- 在 Claude Code 里可以用
/fast打开; - API 用户需要申请或排队开通。
什么时候适合开 fast mode?
别把 fast mode 想成“永远开着就完事”。更好的用法是分场景。
适合开:
- 让 Claude 扫一遍代码结构;
- 生成测试用例初稿;
- 改一批简单重复的类型错误;
- 快速解释某个模块;
- 写脚本、写 SQL、写配置文件;
- 做代码审查前的预检查。
不太建议开:
- 复杂架构设计;
- 高风险安全修复;
- 数据库迁移方案;
- 生产事故排查;
- 涉及钱、权限、隐私的核心逻辑。
一句话:
快速模式适合“多跑几轮找方向”,关键决策还是慢一点、稳一点。
真正的重头戏:dynamic workflows 动态工作流
dynamic workflows 是 Claude Code 的新功能,目前还是研究预览。
它不是普通的“让 AI 写代码”。
普通 Claude Code 会话更像你和一个助手聊天:
你说一句,它做一步。
dynamic workflows 更像你说:
帮我把整个项目从旧 API 迁移到新 API,顺便补测试,跑验证,发现问题自己修。
然后它会开始组织任务。
典型流程大概是这样:
- Claude 先理解你的目标和代码仓库;
- 把大任务拆成很多小任务;
- 派出几十个甚至几百个 subagent 并行处理;
- 每个子智能体负责一个模块、一个目录或一类问题;
- 另一批智能体负责验证结果;
- 还可能安排专门的“挑刺智能体”找漏洞;
- 根据反馈继续迭代;
- 汇总成一个完整结果。
整个过程可能跑几小时,也可能跑几天。
中途断了也能继续跑。
这就很适合那种你平时一看就头大的活:
改动范围巨大,文件一多,人脑缓存直接爆了。
它适合干什么?这几类任务最有价值
别拿 dynamic workflows 去做“小修小补”。那是大炮打蚊子,token 账单看了会心梗。
它真正适合的是大规模工程任务。
1. 整个仓库的 bug 排查
比如线上有个诡异问题:
- 某些用户偶发登录失败;
- 支付回调偶尔重复处理;
- 缓存更新后数据不一致;
- 后台任务偶尔丢消息。
这类 bug 往往不在一个文件里。
可能牵扯:
- API 层;
- 数据库事务;
- 队列消费;
- 缓存策略;
- 鉴权中间件;
- 重试机制;
- 日志埋点。
让一个普通 AI 会话排查,很容易只盯住局部。
dynamic workflows 的价值在于,它可以并行扫很多路径,再把线索合并。
你可以这样下指令:
请创建一个 workflow,排查用户登录偶发失败的问题。
重点检查鉴权、session、缓存、数据库读写、重试逻辑和日志。
不要直接大改代码,先输出可验证的假设、涉及文件、证据和建议修复方案。
这比直接说“帮我修 bug”靠谱多了。
2. 安全审计
安全审计很适合拆成多条线并行跑。
比如让不同 subagent 分别检查:
- SQL 注入;
- SSRF;
- XSS;
- 权限绕过;
- 敏感信息泄露;
- JWT 校验;
- 文件上传;
- Webhook 签名;
- 管理后台接口;
- 第三方依赖风险。
你可以这样说:
请创建一个安全审计 workflow。
目标是审查整个仓库里的高风险漏洞。
请按漏洞类型拆分任务,输出风险等级、影响范围、复现思路、涉及文件和修复建议。
所有结论都要给出代码证据。不要编造不存在的调用链。
注意最后一句:不要编造不存在的调用链。
这句很重要。AI 安全审计最烦的就是“看起来很懂,实际在脑补”。
3. 性能优化
性能问题也经常是全链路问题。
页面慢,不一定是前端写烂了。
可能是:
- 接口 N+1 查询;
- 数据库索引缺失;
- 缓存没命中;
- 服务端序列化太重;
- 前端重复请求;
- 包体积过大;
- 图片没压缩;
- 队列消费阻塞。
可以让 workflow 分模块检查。
示例指令:
请创建一个性能优化 workflow。
目标是降低订单列表页的首屏加载时间。
请并行检查前端请求、后端接口、数据库查询、缓存命中、序列化开销和资源加载。
输出优先级排序,标明哪些改动收益最大、风险最低。
这里别急着让它改代码。
更好的节奏是:
- 先找瓶颈;
- 再排优先级;
- 小步提交;
- 每一步跑测试和 benchmark。
AI 可以帮你跑得快,但你得控制方向盘。
4. 大规模迁移:它最擅长的场景
dynamic workflows 最适合的一类任务,是迁移。
比如:
- 框架升级;
- API 替换;
- 旧 SDK 换新 SDK;
- 从 JavaScript 迁到 TypeScript;
- 从 REST 改 GraphQL;
- 从 Vue 2 迁 Vue 3;
- 从 Jest 迁 Vitest;
- 从 CommonJS 迁 ESM;
- 跨语言移植。
这种活有一个特点:
规则相对明确,改动范围巨大。
人来做,很痛苦。
AI 来做,反而有发挥空间。
你可以给它迁移规则、测试要求、兼容边界,然后让它一批批处理。
示例指令:
请创建一个 workflow,把项目中的旧版 paymentClient API 迁移到新版 billingClient API。
要求:
- 扫描所有调用旧 API 的位置;
- 按模块分批迁移;
- 保持现有业务行为不变;
- 给关键路径补测试;
- 每批改动后运行相关测试;
- 输出迁移清单、风险点和未完成项。
不要一次性提交无法 review 的巨大改动。
最后一句也很关键。
如果 AI 一口气改 1000 个文件,你 review 的时候会想辞职。
Bun 从 Zig 迁到 Rust:为什么这个案例很吓人?
Anthropic 用 Bun 的迁移案例做宣传。
Bun 是一个很快的 JavaScript 运行时。
它的创始人 Jarred Sumner 用 dynamic workflows,把项目从 Zig 移植到了 Rust。
官方披露的数据很夸张:
- 写了约 75 万行 Rust 代码;
- 通过 99.8% 的原有测试;
- 从第一次提交到合并,只用了 11 天。
这个案例有冲击力,因为它不是“写个 Todo App”。
这是大型真实项目,还是运行时这种硬骨头。
当然,咱们也别被数字冲昏头。
能跑成这样,背后大概率有几个前提:
- 原项目测试覆盖比较扎实;
- 迁移目标明确;
- 维护者非常懂原架构;
- 有人持续 review 和纠偏;
- workflow 不是放飞自我,而是有人控节奏。
所以别幻想自己随手一句“把公司祖传项目迁到 Rust”,然后去喝咖啡,回来就能上线。
真这么干,老板可能会先把你迁出公司。
怎么开启 dynamic workflows?
目前它还是研究预览。
可用范围大概是:
- Max 套餐默认开启;
- Team 套餐默认开启;
- API 用户默认开启或逐步开放;
- Enterprise 默认关闭,需要管理员手动打开。
在 Claude Code 里,你可以直接对 Claude 说:
请为这个任务创建一个 workflow。
也可以开启相关开关,比如 ultracode。
第一次触发时,Claude Code 会把准备执行的内容展示给你看,让你确认。
这个设计挺必要。
毕竟它可能调用大量子智能体,跑很久,烧很多 token。不给你确认一下,账单容易让人沉默。
推荐上手姿势:别一上来就跑全仓库
很多人用新功能容易上头。
看到“几百个 subagent 并行”,脑子里立刻浮现:
让它把整个公司代码库优化一遍!
冷静。
建议按这个节奏来。
小任务试水
选一个边界清晰的任务。
比如:
- 迁移一个目录;
- 审计一个模块;
- 优化一个页面;
- 排查一个接口;
- 替换一种旧 API。
示例:
请创建一个小型 workflow,只分析 src/modules/order 目录。
目标是找出可能导致订单状态不一致的问题。
先不要修改代码,只输出证据、风险和建议。
先让它只读分析。
你确认它的判断靠谱,再让它动手。
明确边界
给 AI 的任务越大,边界越要清楚。
别只说:
帮我优化项目。
这句话太虚了。
换成:
请创建一个 workflow,优化用户中心页面的加载速度。
范围限定在 frontend/src/pages/user-center 和 backend/src/api/user。
目标是减少重复请求和慢查询。
不要修改鉴权逻辑。
每个建议都要给出对应文件和验证方式。
这样它不容易跑飞。
要求它先出计划
大任务别让它直接改。
先让它交计划。
请先生成 workflow 计划。
包括任务拆分、每个 subagent 的职责、验证方式、预估风险和需要我确认的问题。
在我确认前不要修改代码。
这个习惯能救命。
尤其是生产项目。
你不想第二天早上看到一个 AI 提交了 268 个文件,然后测试只跑了一半。
把验证写进指令
不要假设 AI 会主动验证。
你要明确写出来。
比如:
每完成一批改动后,请运行对应单元测试。
如果测试失败,先定位失败原因,不要盲目继续改。
最终输出通过的测试、失败的测试、跳过的测试和原因。
这类指令很朴素,却很有效。
一套可直接复制的 workflow 提示词
下面这段可以直接改项目名使用。
请为以下任务创建一个 dynamic workflow:
目标:将项目中旧版 authService 的调用迁移到新版 identityClient。
范围:
- backend/src/modules/auth
- backend/src/modules/user
- backend/src/middleware
要求:
- 扫描所有旧 API 调用点;
- 按模块拆分迁移任务;
- 保持现有业务行为不变;
- 不要修改数据库 schema;
- 不要改动与支付相关的代码;
- 给关键路径补充或更新测试;
- 每批改动后运行相关测试;
- 发现不确定的地方先记录,不要硬改;
- 输出迁移清单、风险点、测试结果和人工确认项。
执行前请先展示 workflow 计划。
在我确认前不要修改代码。
如果你做安全审计,可以换成:
请创建一个 dynamic workflow,对当前仓库做安全审计。
重点检查:
- 权限绕过
- SQL 注入
- SSRF
- XSS
- 敏感信息泄露
- 文件上传风险
- Webhook 签名校验
- JWT 处理
要求:
- 按漏洞类型拆分 subagent;
- 每个结论必须包含代码证据;
- 标明风险等级和影响范围;
- 给出最小修复建议;
- 不要直接修改代码;
- 输出可复核的审计报告。
避坑清单:这些地方别犯懒
1. 别用它处理没边界的任务
“帮我重构整个项目”这种指令太危险。
它可能真的会重构。
然后你会得到一个没人敢合并的巨型 PR。
更好的方式是:
- 限定目录;
- 限定目标;
- 限定不能改的东西;
- 限定输出格式;
- 限定验证方式。
2. 别忽略 token 成本
dynamic workflows 很烧 token。
Anthropic 也主动提醒了:它的消耗会比普通 Claude Code 会话高很多。
原因很简单。
它不是一个 agent 在干活,而是一堆 agent 在并行干活,还要互相验证、挑刺、迭代。
建议你这样控成本:
- 先跑只读分析;
- 先限定一个目录;
- 先让它输出计划;
- 先拿非核心模块试;
- 不要一上来扫全仓库;
- 对大任务设阶段性检查点。
别等账单来了才开始研究“成本优化”。那时候心态已经不优雅了。
3. 别让 AI 自己决定所有架构取舍
AI 可以帮你找路径、写代码、跑验证。
关键架构取舍还是要人来拍板。
比如:
- 是否保留兼容层;
- 是否拆服务;
- 是否引入新依赖;
- 是否改变数据模型;
- 是否影响外部 API;
- 是否需要灰度发布。
这些不是“代码能跑”就够了。
背后还有业务、团队、维护成本、上线风险。
4. 别相信没有证据的结论
让 Claude 输出结论时,要求它带证据。
好格式长这样:
## 风险点:订单状态可能被重复更新
- 风险等级:高
- 涉及文件:backend/src/modules/order/status.ts
- 相关函数:updateOrderStatus
- 证据:该函数在 webhook 重试场景下没有幂等检查
- 影响:支付回调重复投递时,可能触发多次库存扣减
- 建议:增加 eventId 幂等表或状态流转校验
- 验证方式:补充重复 webhook 投递测试
差格式长这样:
代码里可能有一些并发问题,建议优化。
这不叫审计,这叫摸鱼。
我的判断:Opus 4.8 更适合“工程型 AI 工作流”
Opus 4.8 不是那种只靠一句“模型更强”来吸引人的更新。
它更像是往工程场景走了一大步。
几个信号很明显:
- 更愿意承认不确定;
- 长任务自我判断更稳;
- fast mode 降低高频使用成本;
- dynamic workflows 开始处理大规模代码任务;
- 支持并行 subagent、验证、挑刺和迭代。
对普通用户来说,fast mode 可能是每天都能用上的功能。
对开发团队来说,dynamic workflows 才是真正值得测试的东西。
但别神化它。
它不是“自动 CTO”。
更像一个可以临时拉起来的 AI 工程小队。你给目标、边界和验收标准,它帮你把大量脏活累活推进下去。
用得好,它能帮你省掉很多重复劳动。
用得莽,它也能帮你制造一个巨大的 review 灾难。
正确姿势就一句话:
小范围试水,明确边界,先出计划,再让它改,所有结论都要证据。