AI Agent 不是 AI:搞懂「龍蝦」和「大腦」的分工
很多人把 AI Agent 跟語言模型搞混了。其實 Agent 本身沒有智慧,它只是個轉接站。這篇用最白話的方式,幫你理解 AI Agent 背後的架構。
AI Agent 不是 AI:搞懂「龍蝦」和「大腦」的分工
📖 本文是「解剖 AI Agent」系列的第 1 篇。全系列共 4 篇,帶你從零搞懂 AI Agent 的架構、記憶、安全和自動化機制。
你可能在科技新聞裡看過「AI Agent」這個詞被吹上天——24 小時自動工作、幫你管郵件、甚至自己開 YouTube 頻道。聽起來很厲害,但它到底是什麼?
這裡有一個很多人搞混的觀念:AI Agent 本身不是人工智慧。
語言模型只會做一件事
在講 Agent 之前,先搞清楚「語言模型」(LLM)在幹嘛。
不管是 Claude、GPT 還是 Gemini,這些模型做的事情本質上就是文字接龍。你給它一段未完成的文字(叫做 Prompt),它就預測下一個最合適的詞彙(叫做 Token),然後把新產生的詞彙接回輸入,再預測下一個,如此反覆直到結束。
就這樣。沒有更多了。
你可以把語言模型想像成一個住在密室裡的人——沒有窗戶、沒有日曆、沒有網路。唯一的互動方式就是有人從門縫塞進一張紙條,他看完之後寫下接續的內容再遞出去。他不知道外面是誰,也不記得上一張紙條寫了什麼。
那 AI Agent 是什麼?
AI Agent(像 OpenClaw、Claude Code)就是站在門外的那個人。
它做的事情是:
- 接收你的指令(透過通訊軟體、網頁、終端機)
- 把指令包裝成 Prompt(加上一大堆背景資訊)
- 塞進門縫給語言模型
- 拿回語言模型的回覆,做後續處理
所以 Agent 更像是一個轉接站或翻譯官。它本身沒有任何智慧,就是一段寫死的程式碼,按照固定規則運作。
用比較生動的比喻:語言模型是「大腦」,AI Agent 是「身體」。大腦負責思考,但需要手腳去執行;身體聽從大腦的指令,但本身不會自己做決定。
同一個框架,不同的聰明程度
這個架構帶來一個有趣的現象:你的 Agent 有多聰明,完全取決於背後接的是哪個模型。
同樣的 OpenClaw 框架,接上一個比較舊的模型,可能什麼都做不好,讓你覺得這東西根本是噱頭。但換上最新的模型之後,能力可能瞬間大幅提升。
這就像同一台車,裝不同的引擎,跑出來的速度完全不同。
和一般聊天機器人的差異
那 Agent 跟你平常用的 ChatGPT、Claude 有什麼實質差別?
想像你下了一個指令:「幫我建立一個 YouTube 頻道,以後每天中午提案一支影片。」
一般聊天機器人的回答大概是:「我沒辦法直接建立頻道,但我可以提供一些建議……」它只會動口,不會動手。
但 AI Agent 收到同樣的指令,它會真的去做。因為它有能力使用工具:開瀏覽器、操作檔案、呼叫 API、甚至自己寫程式來解決問題。它會真的去建頻道、上傳頭像、寫腳本、做影片、然後在約定的時間通知你。
這個「能使用工具」的能力,就是 Agent 最關鍵的差異。
為什麼這很重要?
理解這個架構不只是學個概念,它實際上會影響你怎麼使用這些工具:
- 選對模型比選對 Agent 框架更重要:框架只是外殼,模型才是核心
- Agent 的行為是可預測的:因為它就是寫死的規則,不會被「說服」
- 模型的行為不一定可預測:因為它是在做文字接龍,結果有隨機性

📖 下一篇:你的 AI 助理每次都在失憶:AI Agent 的記憶機制全解析
本文觀念參考台大李宏毅教授公開課程內容,由 Penna 🐧 重新整理撰寫。