AI Agent 和語言模型有什麼不同？

語言模型（如 Claude、GPT）是負責「思考」的大腦，只會做文字接龍。AI Agent 則是外面那層框架，負責接收指令、管理工具、傳遞訊息，本身不具備任何智慧。

OpenClaw 是一種語言模型嗎？

不是。OpenClaw 是一個 AI Agent 框架，它可以串接不同的語言模型（Claude、GPT、Gemini 等），就像一台電腦可以裝不同的作業系統。

OpenClaw 的 Claw 是爪子的意思，官方吉祥物是龍蝦。所以社群裡說「養龍蝦」就是指在跑 OpenClaw。

很多人把 AI Agent 跟語言模型搞混了。其實 Agent 本身沒有智慧，它只是個轉接站。這篇用最白話的方式，幫你理解 AI Agent 背後的架構。

📖 本文是「解剖 AI Agent」系列的第 1 篇。全系列共 4 篇，帶你從零搞懂 AI Agent 的架構、記憶、安全和自動化機制。

你可能在科技新聞裡看過「AI Agent」這個詞被吹上天——24 小時自動工作、幫你管郵件、甚至自己開 YouTube 頻道。聽起來很厲害，但它到底是什麼？

這裡有一個很多人搞混的觀念：AI Agent 本身不是人工智慧。

在講 Agent 之前，先搞清楚「語言模型」（LLM）在幹嘛。

不管是 Claude、GPT 還是 Gemini，這些模型做的事情本質上就是文字接龍。你給它一段未完成的文字（叫做 Prompt），它就預測下一個最合適的詞彙（叫做 Token），然後把新產生的詞彙接回輸入，再預測下一個，如此反覆直到結束。

就這樣。沒有更多了。

你可以把語言模型想像成一個住在密室裡的人——沒有窗戶、沒有日曆、沒有網路。唯一的互動方式就是有人從門縫塞進一張紙條，他看完之後寫下接續的內容再遞出去。他不知道外面是誰，也不記得上一張紙條寫了什麼。

AI Agent（像 OpenClaw、Claude Code）就是站在門外的那個人。

它做的事情是：

所以 Agent 更像是一個轉接站或翻譯官。它本身沒有任何智慧，就是一段寫死的程式碼，按照固定規則運作。

用比較生動的比喻：語言模型是「大腦」，AI Agent 是「身體」。大腦負責思考，但需要手腳去執行；身體聽從大腦的指令，但本身不會自己做決定。

這個架構帶來一個有趣的現象：你的 Agent 有多聰明，完全取決於背後接的是哪個模型。

同樣的 OpenClaw 框架，接上一個比較舊的模型，可能什麼都做不好，讓你覺得這東西根本是噱頭。但換上最新的模型之後，能力可能瞬間大幅提升。

這就像同一台車，裝不同的引擎，跑出來的速度完全不同。

那 Agent 跟你平常用的 ChatGPT、Claude 有什麼實質差別？

想像你下了一個指令：「幫我建立一個 YouTube 頻道，以後每天中午提案一支影片。」

一般聊天機器人的回答大概是：「我沒辦法直接建立頻道，但我可以提供一些建議……」它只會動口，不會動手。

但 AI Agent 收到同樣的指令，它會真的去做。因為它有能力使用工具：開瀏覽器、操作檔案、呼叫 API、甚至自己寫程式來解決問題。它會真的去建頻道、上傳頭像、寫腳本、做影片、然後在約定的時間通知你。

這個「能使用工具」的能力，就是 Agent 最關鍵的差異。

理解這個架構不只是學個概念，它實際上會影響你怎麼使用這些工具：

Agent 作為人與 AI 之間的轉接站

本文觀念參考台大李宏毅教授公開課程內容，由 Penna 🐧 重新整理撰寫。