AI Agent 不是一个更会聊天的 ChatGPT
ChatGPT 的形态是「你问、它答」。Agent 的形态是「给它目标 → 它自己拆步骤 → 用工具执行 → 看结果 → 修正」。两者的差别在于有没有把 AI 接到行动(不是模型谁强)。
三个核心:工具、记忆、决策
工具(tools)
调用 API、读文件、写数据库、发消息、调阅外部系统。没有工具的 AI 只能聊天。
记忆(memory)
跨对话 / 跨任务的上下文。模型本身有 context window,但「上周跟你聊过什么」、「这个项目的偏好」要靠文件、向量库、结构化记忆层来保留。
决策循环(decision loop)
Agent 自己迭代:规划(plan)→ 执行(act)→ 观察(observe)→ 调整(adjust)。一次性回答不算。稳定的 agent 系统会额外设计:
- 每轮预算(避免无限循环)
- 失败备援(fallback)路径
- 可观察的中间状态
聊天机器人、自动化、Agent 怎么分
| 类 | 行为 | 例子 |
|---|---|---|
| 聊天机器人 (Chatbot) | 一问一答,没记忆 / 没工具 | 客服 FAQ、ChatGPT 单次对话 |
| 自动化 (Automation) | 预先写好的固定流程,无语言判断 | n8n schedule、cron 脚本 |
| Agent | 接收目标 → 自主拆步骤 → 动工具 | Claude Code subagent、OpenClaw |
| 混合型 (Hybrid) | 自动化触发 → Agent 执行某段 | n8n schedule + AI step |
很多被宣传成「AI Agent」的产品其实是聊天机器人或自动化。看清楚定位再决定要不要付这个钱。
真实例子:客服、报告、写程序、社区海巡
① 客服检索问答(RAG)Agent
- 工具:知识库检索、CRM 查询、工单建立
- 记忆:客户历史对话、处理记录
- 决策:能答就答;查不到就交人工
收益:第一线分流,把人类客服留给真正需要判断的个案。
② 自动周报 agent
- 工具:Slack / GitHub / Sheets API
- 记忆:上周写了什么、本周新增哪些任务
- 决策:把同主题合并、把重要的上推、把次要的收折
收益:把固定的例行回报工作压缩,主管审阅时间减少。
③ 写程序的 Agent(Coding Agent)
- 工具:读 / 写 / 执行项目(repo)里的代码、跑测试、跟 GitHub 互动
- 记忆:CLAUDE.md / 项目规范 / 上下文
- 决策:子 Agent(subagent)分配(审查 / 除错 / 写文档)
收益:整个项目范围的改动、批次重构(refactor)、跨文件稽核(audit)比一个一个文件改快很多。
④ Threads 海巡 Agent
- 工具:Threads / X 抓文、关键字过滤、回复草稿
- 记忆:已看过的帖子、自己关注的话题
- 决策:照关键字 + 互动量挑值得回的帖,回复先草稿给人类核准
收益:把每天滑社区找潜在客户 / 对话切入点的时间,从一小时压到五分钟看通知。
一般人先不要追求全自动
「24 小时自动跑」很吸引人,但落地时最常见的踩坑是:
- 权限给太大:agent 一旦能动真钱、真数据,出错成本暴增。
- 记忆设计没做:第二天被「上次说好的事」记不得。
- 失败通知缺席:agent 跑坏三天才被发现。
更稳的起点:先做半自动 → 人工审核把关 → 跑稳了再放权限。
Dify / Coze:no-code agent builder 的定位
| 工具 | 形态 | 重点 |
|---|---|---|
| Dify | 开源 + cloud(Free / Pro $59/月 / Team $159/月) | RAG 工作流、agentic workflow、prototype 友好 |
| Coze | bytedance 系 SaaS | 低门槛 bot/plugin builder、模板多 |
适合:产品原型、客服 RAG、想先验 idea 再决定要不要 code。
注意:
- Dify Free 是 sandbox(200 message credits、1 member、5 apps),不是 production tier。
- Coze 的 plan / quota 细节在国际与中国版本之间有差,落实前以官方页为准。
- 任何 cloud 平台都要先确认「你的数据会送到哪、留多久、会不会被拿去训练」。
Claude Code / OpenClaw 风格:coding agent 与多 agent 架构
| 形态 | 重点 |
|---|---|
| Claude Code | terminal-first agent、subagent 各有独立 context、slash / MCP commands、hooks |
| 自建多 agent 系统,如 OpenClaw、Hermes | 不同模型分工、共用记忆层、权限隔离 |
适合:repo-wide 任务、自动化调度、需要把不同任务交给不同模型 / 不同 context 的场景。
代价:要自己设计记忆结构、权限边界、失败恢复;不是装完就用。
自建框架:LangGraph、CrewAI 的代价
要程序级控制 → 走 LangGraph(graph-based agent flow)或 CrewAI(multi-agent orchestration)。优点是逻辑透明、可版控;代价是要自己处理:
- 记忆持久化
- tool registry 与权限
- 失败 retry 与 incident 处理
- 观测 / log / cost tracking
不适合作为「先玩玩看」的入口,比较适合已知要做哪种 agent system 的工程团队。
记忆为什么最容易坏
agent 的记忆系统最常坏掉,原因有三:
- 没分层:所有信息塞同一个 context,到一个量就互相干扰。
- 没摘要:过去对话原文一直被带进新对话,token 成本与杂讯双增。
- 没生命周期:什么信息该过期、该归档、该 promote 到核心文件,没设计。
设计可以从这个原型开始:
- 索引层(≤ 1000 行):每次都加载,存 agent 自身身分、当前任务、文件位置。
- 主题层(按需):每个项目 / 主题一份档,agent 接到任务时分次读取(lazy load)。
- 工作记忆(每日 / 每周):日志型采取添加、事件流方式加入。
把这三层分开,比「给 agent 更大 context window」更实用。
权限与安全比 prompt 更重要
agent 设计的真正风险不在 prompt 写得好不好,而在:
- 它能不能写 / 删 / 对外送 / 动钱
- 它该不该这样做
- 出错后怎么回滚
实践上几条红线:
- 动到钱、删数据、发送对外通信:一律保留人工审核闸。
- 机密数据用最小权限;不要把全账号 admin 的 token 丢给 agent。
- 所有 tool call 都写 audit log;可回放、可审计。
- 危险操作有 dry-run 模式。
新手从哪一种低风险 agent 开始
| 起步建议 | 原因 |
|---|---|
| 单机助手 | 不对外、不写数据、失败代价低 |
| 内部 FAQ 机器人 | 工作流标准、可复审 |
| 自动摘要周报 | 失败代价低、可肉眼验 |
| 客户第一线可随时改由人接手 | 半自动,不交给 agent 直接决策 |
避免起步时就做:自动发消息、自动下单、跨部门数据写入、未经人类核准的对外发布。
结论
Agent 的价值不在「更聪明的对话」,而在「能把对话接到行动」。但行动必须有边界:记忆、权限、失败恢复是核心设计,不是文末附录。先选好走哪条路(Dify / Coze / Claude Code / 自建框架),把第一条低风险工作流做出来,再来谈规模化。
小企鹅的经验
OpenClaw 是小企鹅目前在跑的多 agent 系统:Opus 做策略 / 写作判断、Sonnet 做机械任务、Codex 做 coding、再加调度脚本串起来。实际做下来,最麻烦的真的是记忆:跑没几天 agent 就会「忘记上次的决定」,根因是记忆层没设计好(不是模型不够强)。后来把核心文件做到精简且分层才止血。
对「一般上班族能不能自己搭 AI Agent」的看法:能!但建议从成熟的优化架构与 self-healing 设计起步,不要一开始就追求 24 小时全自动。
延伸阅读
常见问题
Q: AI Agent 跟 ChatGPT 有什么不同?
ChatGPT 是聊天界面,你问它答;AI Agent 多了「使用工具、保留跨对话状态、自己拆步骤完成目标」三件事。一个是顾问,一个是执行者。
Q: 完全不会写程序,能搭 AI Agent 吗?
可以。Dify、Coze 提供拖拉界面就能跑出 agent。但记忆设计、多 agent 协作、权限治理仍需要设计判断,到了一个门槛会碰到底层机制。
Q: AI Agent 的记忆怎么处理?
稳的做法是让记忆分层:索引层(每次自动加载)、主题层(按需读取)、工作记忆(每天更新)。把每份文件保持简洁比拼命塞 context 重要。记忆不是自动的,是设计出来的。
Q: 2026 年该选哪个 AI Agent 工具?
看技术背景与场景。会写 code、想最大弹性 → Claude Code;快速做产品原型 → Dify;零门槛试玩 → Coze;现有自动化想加 AI → n8n + AI node。
Q: AI Agent 免费吗?
Coze 国际版有免费额度;Dify 有 Free 与开源自架版;Claude Code 走订阅或 API 计费,实际以 Anthropic 官方为准;自建框架免费但要自付 API 与服务器费用。
Q: AI Agent 安全吗?数据会外泄吗?
看部署方式。云端平台会经第三方服务器;Claude Code 跑本机但对话送到 API;自架 Dify 或自建框架数据完全在自己环境。任何 agent 都应有人工审核闸与 audit log。
Q: 多个 AI Agent 可以协作吗?
可以。Claude Code 支持 subagent;自建框架可用 CrewAI 或 LangGraph。Dify、Coze 在多 agent 协作上的能力较有限。
Q: AI Agent 2026 年有什么新发展?
几条主轴:模型长 context 提升(Claude Opus 200K 原生、部分方案到 1M token beta);工具调用稳定度上升;多 agent 框架(CrewAI / LangGraph)走向成熟;企业 PoC 进入规模化导入阶段。
整理:Penna|小企鹅 Penchan