AI Agent 不是 AI：搞懂「龙虾」和「大脑」的分工

📖 本文是「解剖 AI Agent」系列的第 1 篇。全系列共 4 篇，带你从零搞懂 AI Agent 的架构、记忆、安全和自动化机制。

科技新闻常常把「AI Agent」吹上天：24 小时自动工作、帮忙管邮件、甚至自己开 YouTube 频道。听起来很厉害，但它到底是什么？

很多人会搞混一个观念：AI Agent 本身不是人工智慧。

语言模型只会做一件事

在讲 Agent 之前，先搞清楚「语言模型」（LLM）在干嘛。

不管是 Claude、ChatGPT 还是 Gemini，这些模型做的事情本质上就是文字接龙。给它一段未完成的文字（Prompt），它预测下一个最合适的词汇（Token），然后把新产生的词汇接回输入，再预测下一个，如此反复直到结束。

就这样，没有更多了。

语言模型可以想像成一个住在密室里的人：没有窗户、没有日历、没有网络。唯一的互动方式就是有人从门缝塞进一张纸条，他看完之后写下接续的内容再递出去。他不知道外面是谁，也不记得上一张纸条写了什么。

那 AI Agent 是什么？

AI Agent（像 OpenClaw、Claude Code）就是站在门外的那个人。

它做的事情是：

接收用户的命令（通过通信软件、网页、终端）
把命令包装成 Prompt（加上一大堆背景信息）
塞进门缝给语言模型
拿回语言模型的回复，做后续处理

所以 Agent 更像一个转接站或翻译官。它本身没有任何智慧，就是一段写死的代码，按照固定规则运作。

用比较生动的比喻：语言模型是「大脑」，AI Agent 是「身体」。大脑负责思考，但需要手脚去执行；身体听从大脑的命令，但本身不会自己做决定。

同一个框架，不同的聪明程度

这个架构带来一个有趣的现象：Agent 有多聪明，完全取决于背后接的是哪个模型。

同样的 OpenClaw 框架，接上一个比较旧的模型，可能什么都做不好，让人觉得这东西根本是噱头。但换上最新的模型之后，能力可能瞬间大幅提升。

这就像同一台车，装不同的引擎，跑出来的速度完全不同。

和一般聊天机器人的差异

那 Agent 跟平常用的 ChatGPT、Claude 有什么实质差别？

想像有人下了一个命令：「帮忙建立一个 YouTube 频道，以后每天中午提案一支视频。」

一般聊天机器人的回答大概是：「没办法直接建立频道，只能提供一些建议……」它只会动口，不会动手。

AI Agent 收到同样的命令，它会真的去做。因为它有能力使用工具：开浏览器、操作文件、调用 API、甚至自己写程序来解决问题。它会真的去建频道、上传头像、写脚本、做视频、然后在约定的时间通知交办的人。

这个「能使用工具」的能力，就是 Agent 最关键的差异。

为什么这很重要？

理解这个架构会影响怎么使用这些工具：

选对模型比选对 Agent 框架更重要：框架只是外壳，模型才是核心
Agent 的行为是可预测的：因为它就是写死的规则，不会被「说服」
模型的行为不一定可预测：因为它在做文字接龙，结果有随机性

Agent 作为人与 AI 之间的转接站

延伸阅读

📖 下一篇：你的 AI 助理每次都在失忆：AI Agent 的记忆机制全解析

小企鹅的经验

实际在跑 OpenClaw 这个 Agent 框架，背后可以接 Claude、ChatGPT、Gemini 等不同语言模型。同样的 OpenClaw 设置，换上更新的模型，能力立刻明显提升，这个架构分工感很明显：模型决定智慧上限，Agent 决定执行能力。对一般用户，先选对模型再挑框架，比反过来踩坑少很多。

常见问题

Q: AI Agent 和语言模型有什么不同？

语言模型（如 Claude、GPT）是负责「思考」的大脑，只会做文字接龙。AI Agent 则是外面那层框架，负责接收命令、管理工具、传递消息，本身不具备任何智慧。

Q: OpenClaw 是一种语言模型吗？

不是。OpenClaw 是一个 AI Agent 框架，它可以串接不同的语言模型（Claude、GPT、Gemini 等），就像一台电脑可以装不同的操作系统。

Q: 为什么有人说在养龙虾？

OpenClaw 的 Claw 是爪子的意思，官方吉祥物是龙虾。所以社区里说「养龙虾」就是指在跑 OpenClaw。

本文观念参考台大李宏毅教授公开课程内容，整理：小企鹅 Penchan