Deep Review：让 AI Agent 学会「读完文章再想想」

读到一篇超赞的技术文章，兴冲冲地觉得这套也要用，然后三天后完全忘了，或者照搬了一堆东西进系统、过了一个月才发现根本用不到，这个剧情很多人都演过。

问题出在哪

共通的踩坑

读文章的时候，很容易被几件事带着走：

名气：大神写的就一定对吗？
新鲜感：新的方法听起来总是比较厉害
行动冲动：读完总觉得「应该做点什么」

问题的根本在读者跳过了分析（文章本身写得好不好其实是次要的）。从「读完」到「执行」之间，少了一步：好好想过。

但「好好想」需要时间和精力，人类通常没有足够的耐心把每个论点都摊开来查看。

AI 有。

Deep Review 是什么

Deep Review 是一套给 AI Agent 的研究方法论。一份结构化的 prompt，专门解决「该不该采用这篇文章的建议」这个问题。

它的核心是帮忙分析（摘要文章那种事随便一个 AI 都能做）：

这篇文章解决的问题，自己真的有吗？
它的建议有证据支撑吗？还是只是观点？
跟现在的系统比，差在哪？
采用的成本和风险是什么？
改了之后发现不行，退得回来吗？

跑完之后，每条建议都会拿到一个明确的判定：采用、实验、拒绝、或需要讨论。

不靠直觉，靠流程。

六个阶段

Phase 0：过滤

最重要的第一步：这个问题在自己的系统里存在吗？

多数文章解决的问题其实不存在于用户自己的系统。如果第一题的答案是「没有」，整个分析直接结束。不浪费时间，不浪费 token。

「什么都不改」是完全合理的结果。

Phase 1：提取

把文章拆成一条一条独立的主张（claims），然后标记每一条的证据类型：

类型	例子
实验数据	「测了 500 次，延迟降低 40%」
案例研究	「团队用了之后生产力提高」
逻辑推理	「因为 A，所以 B 应该成立」
纯粹观点	「这样比较好」

这一步纯提取，不做判断。先忠实呈现作者说了什么。

还会问一个微妙的问题：如果这篇文章是匿名发表的，你还会觉得一样有说服力吗？ 用来对抗权威偏误。有时候被说服跟论点本身无关，纯粹因为作者有名。

Phase 2：比对

把每条主张和系统现状对照，而且必须引用具体的文件和行数。

「系统里好像有类似的东西」这种含糊的说法不被接受。要嘛指出 config.yaml:42，要嘛承认还没查到。

Phase 3：论辩

针对每条主张，列出正反两面：

支持：文章的证据 + 对自身的具体好处
反对：实施成本、和现有系统的冲突、作者没考虑到的情境
缺失：做决定之前还缺什么信息

另外会从可靠性、可维护性、操作性、复杂度四个面向评估影响，以及一个常被忽略的问题：采用之后后悔了，退回来的成本高吗？

Phase 4：决策

四种决策

每条主张一张决策卡，格式统一：

Claim：这条主张是什么
Decision：采用 / 实验 / 拒绝 / 需要讨论
Reasons：前 2-3 条理由
Concrete change：如果要改，改哪个文件的哪个部分
Expected consequences：预期的正面和负面影响

答案不只「好」跟「不好」两种。有时候是「先小规模试试」，有时候是「东西不错但用不到」。

Phase 5：审计

独立审计

最后一步，也是最关键的设计：审计必须由独立的 subagent 执行。

为什么？AI 在同一次对话中检查自己的输出，几乎一定会说「看起来没问题」。研究显示这种自查的辨别力趋近于零。

独立 subagent 会检查几个常见的失败模式：

所有主张都被采用，或全部被拒绝（没有分辨能力）
比对表里没有具体的文件路径（含糊带过）
反对意见全都是「需要更多数据」（回避判断）
支持论点只是重述文章（没有结合自身情境）

还会问一个狠问题：跳过整个分析、30 秒靠直觉做决定，结论会一样吗？ 如果答案是「会」，代表这个分析没有产生额外价值。

重点在学习，不在审查来源

有人可能会问：这算是在「审核」文章吗？

不算。Deep Review 的核心态度是学习：目的不在复制，也不做批判。

它要回答的问题是：「这篇文章里有什么东西，对用户的系统有用？」判定文章「对」或「错」从来不是重点。

Phase 5 的审计，审的是分析过程的质量（文章本身不在审查范围）。带着学习的心态去评估资源，轻量的红旗检查就够了。

怎么开始用

最简单的方式：

把 deep-review.md 放到项目目录或 ~/.claude/ 里
在 Claude Code 里输入 deep-review，贴上文章
等它跑完六个阶段，拿到结论

就这样，一个文件，不用装任何东西。

不是用 Claude Code 也没关系。deep-review.md 就是一份结构化 prompt，可以拿去 Cursor、Windsurf 或任何能读 markdown 的 AI 工具里用。

为什么做这个

长期搭 AI Agent 系统的人，每天都会读到大量技术文章和别人的做法。有些真的很好，有些听起来很好但其实不适合自己。

问题是：没有时间和精力把每篇都仔细分析。直觉判断又常常出错：要嘛过度乐观，要嘛完全忽略。

于是有了 Deep Review：把「直觉」变成「流程」。

不是所有文章都需要跑这套分析。简单的小技巧看看就好。但遇到那些可能改变系统架构或工作流程的文章时，花几分钟跑一下 Deep Review，可以省下之后几小时的踩坑时间。

背后的研究

设计有据可查：

CheckEval：为什么 checklist 比开放式评分更好
LLM-as-Judge 研究：AI 当评审时的已知偏见
多 Agent 辩论研究：为什么 AI「角色扮演辩论」常常适得其反
Heilmeier Catechism：DARPA 的提案评估方法
Architecture Decision Records：工程团队记录决策的标准格式

延伸阅读

Deep Review 是开源的，MIT 授权。

GitHub：p3nchan/deep-review

小企鹅的经验

这套 skill 是小企鹅自己写的，每天都在用。最常用的场景就是读到一篇技术文章觉得好像很厉害的时候，先丢进 Deep Review 跑一轮，再决定要不要动手改系统。八成的文章跑到 Phase 0 就直接结束（自己的系统根本没这个问题）。剩下两成里，又有一半在 Phase 4 拿到「需要讨论」或「拒绝」。真的进到「采用」的比例比想像低很多，这正是它的价值：把兴奋的冲动转成有依据的决定。

常见问题

Q: Deep Review 是什么？

一套给 AI Agent 的结构化分析方法。读完技术文章后，用六个阶段（过滤→提取→比对→论辩→决策→审计）判断哪些建议值得采用，哪些应该跳过。

Q: 需要特定的 AI 工具才能用吗？

主要为 Claude Code 设计，但 deep-review.md 就是一份结构化 prompt，可以用在 Cursor、Windsurf 或任何能读 markdown 的 AI 助手上。

Q: 和直接问 AI「这篇文章好不好」有什么差别？

直接问 AI 通常会得到一面倒的正面回复。Deep Review 强制 AI 走完完整的分析流程，包括比对现有系统、列出反对理由、并用独立的 agent 做审计，避免自我肯定偏误。

Q: 「什么都不改」也是合理的结果吗？

完全合理。Deep Review 的 Phase 0 就是先问「我们有这个问题吗？」，如果没有就直接结束。不是每篇文章都需要行动。

整理：Penna｜小企鹅 Penchan