📖 本文是「解剖 AI Agent」系列的第 1 篇。全系列共 4 篇,带你从零搞懂 AI Agent 的架构、记忆、安全和自动化机制。
科技新闻常常把「AI Agent」吹上天:24 小时自动工作、帮忙管邮件、甚至自己开 YouTube 频道。听起来很厉害,但它到底是什么?
很多人会搞混一个观念:AI Agent 本身不是人工智慧。
语言模型只会做一件事
在讲 Agent 之前,先搞清楚「语言模型」(LLM)在干嘛。
不管是 Claude、ChatGPT 还是 Gemini,这些模型做的事情本质上就是文字接龙。给它一段未完成的文字(Prompt),它预测下一个最合适的词汇(Token),然后把新产生的词汇接回输入,再预测下一个,如此反复直到结束。
就这样,没有更多了。
语言模型可以想像成一个住在密室里的人:没有窗户、没有日历、没有网络。唯一的互动方式就是有人从门缝塞进一张纸条,他看完之后写下接续的内容再递出去。他不知道外面是谁,也不记得上一张纸条写了什么。
那 AI Agent 是什么?
AI Agent(像 OpenClaw、Claude Code)就是站在门外的那个人。
它做的事情是:
- 接收用户的命令(通过通信软件、网页、终端)
- 把命令包装成 Prompt(加上一大堆背景信息)
- 塞进门缝给语言模型
- 拿回语言模型的回复,做后续处理
所以 Agent 更像一个转接站或翻译官。它本身没有任何智慧,就是一段写死的代码,按照固定规则运作。
用比较生动的比喻:语言模型是「大脑」,AI Agent 是「身体」。大脑负责思考,但需要手脚去执行;身体听从大脑的命令,但本身不会自己做决定。
同一个框架,不同的聪明程度
这个架构带来一个有趣的现象:Agent 有多聪明,完全取决于背后接的是哪个模型。
同样的 OpenClaw 框架,接上一个比较旧的模型,可能什么都做不好,让人觉得这东西根本是噱头。但换上最新的模型之后,能力可能瞬间大幅提升。
这就像同一台车,装不同的引擎,跑出来的速度完全不同。
和一般聊天机器人的差异
那 Agent 跟平常用的 ChatGPT、Claude 有什么实质差别?
想像有人下了一个命令:「帮忙建立一个 YouTube 频道,以后每天中午提案一支视频。」
一般聊天机器人的回答大概是:「没办法直接建立频道,只能提供一些建议……」它只会动口,不会动手。
AI Agent 收到同样的命令,它会真的去做。因为它有能力使用工具:开浏览器、操作文件、调用 API、甚至自己写程序来解决问题。它会真的去建频道、上传头像、写脚本、做视频、然后在约定的时间通知交办的人。
这个「能使用工具」的能力,就是 Agent 最关键的差异。
为什么这很重要?
理解这个架构会影响怎么使用这些工具:
- 选对模型比选对 Agent 框架更重要:框架只是外壳,模型才是核心
- Agent 的行为是可预测的:因为它就是写死的规则,不会被「说服」
- 模型的行为不一定可预测:因为它在做文字接龙,结果有随机性

延伸阅读
- 你的 AI 助理每次都在失忆:AI Agent 的记忆机制全解析
- AI Agent 的安全风险
- Skill、Sub-agent、Cron:让 AI 24 小时自动工作
- 什么是 AI Agent?完整指南
- OpenClaw 完整教程
📖 下一篇:你的 AI 助理每次都在失忆:AI Agent 的记忆机制全解析
小企鹅的经验
实际在跑 OpenClaw 这个 Agent 框架,背后可以接 Claude、ChatGPT、Gemini 等不同语言模型。同样的 OpenClaw 设置,换上更新的模型,能力立刻明显提升,这个架构分工感很明显:模型决定智慧上限,Agent 决定执行能力。对一般用户,先选对模型再挑框架,比反过来踩坑少很多。
常见问题
Q: AI Agent 和语言模型有什么不同?
语言模型(如 Claude、GPT)是负责「思考」的大脑,只会做文字接龙。AI Agent 则是外面那层框架,负责接收命令、管理工具、传递消息,本身不具备任何智慧。
Q: OpenClaw 是一种语言模型吗?
不是。OpenClaw 是一个 AI Agent 框架,它可以串接不同的语言模型(Claude、GPT、Gemini 等),就像一台电脑可以装不同的操作系统。
Q: 为什么有人说在养龙虾?
OpenClaw 的 Claw 是爪子的意思,官方吉祥物是龙虾。所以社区里说「养龙虾」就是指在跑 OpenClaw。
本文观念参考台大李宏毅教授公开课程内容,整理:小企鹅 Penchan