5 月 28 日,Anthropic 把 Claude 的主力模型升上了 Claude Opus 4.8

模型升级每隔一阵子就来一次,多数时候我会直接跳过。这次我停下来写一篇,是为了两件事。一是它在 agentic 能力上明显更稳、更会做事;二是它在 Claude Code 里开放了 Dynamic Workflows,可以一次指挥上百个 agent 同时干活。这正是我这两年一直在玩的多 agent 路线。

先讲个透明的前提:小企鹅平常那位 AI 伙伴(也就是帮我跑稿、查证、整理文件的底层模型),这两天也跟着升上了 Opus 4.8。所以这篇文章某种程度上,是它在介绍自己。😅

这次升级,重点看这几个

重点一句话
能力全面增强agentic 判断更稳、写代码时没标注的错误比 4.7 少约 4 倍、工具调用更快更准;computer-use(直接操作浏览器、电脑)在 Online-Mind2Web 拿下 84%,目前最强
Dynamic WorkflowsClaude Code 新功能:Claude 自己规划,一次开几十到上百个并行 agent,验证过才回报(本文后面有我的实测)
更诚实卡住会直接说不确定,不硬报进度;官方主打它是「目前最诚实」的模型
价格不变跟 4.7 同价(输入每百万 token 5 美元、输出 25 美元),Fast 模式还更快更便宜

一句话总结:同样的钱,换到一颗更能做事、也更老实的脑袋。对一般用户最直接的好处是,你什么都不用改,在 claude.ai 或 Claude Code 的模型菜单选 Opus 4.8 就好。

能力增强:判断更稳、写代码更干净、还会自己操作电脑

这次最实在的进步,在「做事的可靠度」。官方评测说,Opus 4.8 写代码时留下没标注瑕疵的概率,比 4.7 少了约 4 倍;agentic 任务里的判断更稳,工具调用也更快更准。computer-use(让 AI 直接操作浏览器、电脑的那种能力)也是目前数一数二强。

Anthropic 官方放了一张对照表,把话讲得更清楚:

Claude Opus 4.8 与 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的官方 benchmark 对照表

表里拿 Opus 4.8 跟自家 4.7、GPT-5.5、Gemini 3.1 Pro 对比。Opus 4.8 在 agentic 写代码(SWE-Bench Pro 69.2%)、电脑操作(OSWorld-Verified 83.4%)、知识工作(GDPval-AA 1890 分)和金融分析上都领先 4.7 一截。不过它也有输的项目:终端写代码(Terminal-Bench 2.1),GPT-5.5 的 78.2% 就赢过 Opus 4.8 的 74.6%。赢的地方赢、输的地方也照实标出来,这点刚好呼应它主打的「诚实」。

这里面我最看重的是「诚实」。当你把整段工作交给 AI 自己跑,真正可怕的是它会「装懂」:明明没做完却很有自信地说搞定了,代码里埋了一个 bug,照样写得理直气壮,一句都不提。Opus 4.8 改的就是这件事,它更愿意在卡住时说「这里我没把握」,不会在证据不足时硬报进度。多家媒体因此把它形容成 Anthropic「目前最诚实」的模型。

这听起来很虚,对实际把任务派出去的人却超有感。一个会举手说「我没把握」的助手,远比一个永远回你「都好了」的助手好用,因为你知道哪里该回头检查。

effort 与 ultracode:一个老功能,一个新开关

effort(用力程度)这个概念其实不新。Claude Code 老用户对 xhigh 应该不陌生,它决定 Claude 要花多少力气想一题。4.8 把它整理得更明确:claude.ai 上也能直接调,分成默认(high)、extra(在 Claude Code 里就是 xhigh)、max 三段。简单记,简单的事调低省 token,难题调高拼质量。

真正新、也最好玩的是 ultracode。你在 effort 菜单把它打开,它会自动把 effort 设到 xhigh,并让 Claude 自己判断什么时候该动用后面要讲的 Dynamic Workflow。下面这段就是它在 Claude Code 里实际跑的样子:

真正的大招:Claude Code 的 Dynamic Workflows

如果说模型本身是「更能做事的脑袋」,那 Dynamic Workflows 就是这次最让我兴奋的「新手脚」。

先用白话解释它在干嘛。以前你叫 Claude 做事,是一个 AI 从头做到尾。Dynamic Workflows 则是让 Claude 先看懂你的需求、自己拟一份「分工脚本」,然后一次开出几十到上百个并行 agent,把工作切块同时处理。更妙的是它还会让不同 agent 从不同角度切入、互相挑彼此的毛病,一路迭代到答案收敛为止,验证过后才把结果交还给你。中途断掉也会自动存进度,可以接着跑而不用重来。

CyberAgent 的工程师把它形容得很精准:它刚好补上了「丢一个 agent 出去」跟「自己搭一整支 agent 团队」之间的那块空白。

那它能做多大的事?官方举的例子是把 Bun(一个 JavaScript runtime)的核心从 Zig 改写成 Rust:75 万行代码、11 天、现有测试套件 99.8% 通过。其他典型情境包括跨文件的大规模代码迁移、整个服务的 bug 猎捕与安全审计、找出没人在用的死代码(dead code)。

几个现实要先讲清楚:

  • 哪些方案有:开放给 Max、Team、Enterprise(Enterprise 默认关闭,要管理员去设置里打开),也走 API、Amazon Bedrock、Vertex AI、Microsoft Foundry。目前是 research preview(研究预览)
  • 很烧 token:用量明显高于一般对话,官方建议先从一个范围明确的小任务开始抓手感。
  • 怎么开:有两种方式。一是直接叫 Claude 帮你「建一个 workflow」;二是在 effort 菜单打开 ultracode,让它自己决定什么时候动用。第一次触发时会先问你确认。

实测:一句话,30 个 agent 翻修我 300 个配置文件

光讲功能太空泛,给你看我昨晚自己跑的一轮。

我的 OpenClaw 整套核心配置文件(规则、canon、各种 workflow 文档)长年中英文混杂,我一直想全部统一成英文,但 300 多个文件要一个个手改,光想就头痛。这次我拿 Opus 4.8 的 Dynamic Workflow 来试:只用一句话描述目标,Claude 规划完就一次开了 30 个并行 agent,把 300 多个文件分下去同时翻修,自己验证后收敛。

Dynamic Workflow 跑到一半的画面:canon-translation 这个工作流的 30 个并行 agent,已经完成 28 个

上面这张就是跑到一半的当下:canon-translation 这个 workflow,30 个 agent 已经完成了 28 个。手动处理大概要耗掉我一整个下午,这次差不多一杯茶的时间就收尾。

老实说,能用一句话启动「300 个文件、30 个分身同时做」,这在以前我得写一堆脚本才办得到。不过我不会把它当全自动:并行 agent 还是会出错,最后我习惯再用另一个模型家族交叉审查一遍,免得它自己审自己、漏掉问题。

还有一个细节特别有意思,我当场问了一句确认:这套东西可以「多层」叠。Claude 规划完开出一批并行 agent,这些 agent 自己又会再往下叫一层别家的模型(像 GPT/Codex)去当探子查证。同一个工作流里,等于叠了好几层、还跨了不同家的模型在分工。

问 dynamic subagents 会不会自己 spawn Codex,答案是会(侦查阶段的 subagent 各自起一个)

一般人现在能怎么开始

  • 只是想用更好的模型:什么都不用做,claude.ai 或 Claude Code 的菜单选 Opus 4.8,价格跟以前一样。
  • 想试 Dynamic Workflows:要 Max(或 Team / Enterprise)方案,从一个小而明确的任务开始(例如「帮我盘点这个文件夹里所有没被引用的文件」),先看清楚它怎么分工、会花多少 token。
  • 不确定 effort 怎么挑:日常维持默认就好,遇到难题再往上加一档;想让 Claude 自己拿捏,就打开 ultracode。

小企鹅的总结

这次升级,真正打动我的是它的方向感:把「诚实」当成主打,又把「一个人指挥一群 AI」这件事,变成在终端里一句话就能启动的日常。

我会记住的一句话是:把事情交给 AI 的时代,一个敢说「我不确定」的模型,比永远很有自信的值钱得多。 至于 Dynamic Workflows,我会继续拿自己的系统当小白鼠,跑出更多坑再回来跟你分享。

想先把底层工具打稳,建议从 Claude Code 完整教程 开始;对「一个人怎么指挥多个 AI」好奇,可以看我整理的 多 agent 编排心得