AI AgentはAIではない：「ロブスター」と「脳」の役割分担を理解する

📖 この記事は「AI Agentを解剖する」シリーズの第1回です。全4回で、AI Agentの構造、記憶、安全、自動化の仕組みをゼロから整理します。

テックニュースでは「AI Agent」がよく大きく取り上げられます。24時間自動で働く、メールを管理する、YouTubeチャンネルまで自分で運営する。すごく聞こえますが、そもそも何なのでしょうか。

多くの人が混同している大事な点があります。AI Agent自体は人工知能ではありません。

言語モデルがしていることは一つだけ

Agentの話に入る前に、まず「言語モデル」（LLM）が何をしているのかを確認します。

ClaudeでもChatGPTでもGeminiでも、これらのモデルが本質的にしていることは文章の続きを作ることです。未完成の文章（Prompt）を渡すと、次に最も自然な単語（Token）を予測します。その単語を入力に足して、また次を予測する。これを終わるまで繰り返します。

基本はそれだけです。

言語モデルは、密室にいる人として考えるとわかりやすいです。窓もカレンダーもインターネットもありません。外とのやり取りは、誰かがドアの隙間から紙を差し込むことだけ。その人は紙を読み、続きを書いて外へ返します。外にいるのが誰かも、前の紙に何が書いてあったかも覚えていません。

ではAI Agentとは何か？

OpenClawやClaude CodeのようなAI Agentは、ドアの外に立っている人です。

Agentがすることは次の通りです。

ユーザーの指示を受け取る（チャット、Webページ、Terminalなど）
指示をPromptにまとめる（大量の背景情報を足す）
ドアの隙間から言語モデルへ渡す
言語モデルの返答を受け取り、次の処理をする

つまりAgentは中継所や通訳に近い存在です。Agent自身に知能はありません。決められたルールに沿って動くプログラムです。

少しイメージしやすく言うなら、言語モデルは「脳」、AI Agentは「身体」です。脳は考えますが、手足がなければ実行できません。身体は脳の指示に従いますが、それ自体が勝手に判断するわけではありません。

同じフレームワークでも賢さは変わる

この構造があるので、面白い現象が起きます。Agentがどれくらい賢く見えるかは、裏側につながっているモデルに大きく左右されます。

同じOpenClawフレームワークでも、古いモデルをつなぐと何もうまくできず、「ただの宣伝では？」と感じるかもしれません。ところが最新モデルに替えると、能力が一気に上がることがあります。

同じ車でも、載せるエンジンが違えば速度がまったく変わるのと同じです。

普通のチャットボットとの違い

では、普段使っているChatGPTやClaudeとAgentには、実質的にどんな違いがあるのでしょうか。

たとえば誰かが「YouTubeチャンネルを作って、今後は毎日正午に動画案を1本出して」と指示したとします。

普通のチャットボットなら、「直接チャンネルを作ることはできませんが、アドバイスはできます……」という返答になります。話すことはできますが、手は動かせません。

AI Agentが同じ指示を受けると、実際にやりに行けます。ブラウザを開く、ファイルを操作する、APIを呼ぶ、必要ならコードを書く。チャンネルを作り、アイコンをアップロードし、脚本を書き、動画を作り、決めた時間に依頼者へ通知するところまで進められます。

この「ツールを使える」能力こそが、Agentの最も重要な違いです。

なぜ重要なのか？

この構造を理解すると、ツールの使い方が変わります。

Agentフレームワーク選びよりモデル選びのほうが重要：フレームワークは外側で、モデルが中核です。
Agentの挙動は予測しやすい：決め打ちのルールなので、「説得される」わけではありません。
モデルの挙動は常に予測できるとは限らない：文章の続きを生成しているため、結果には揺らぎがあります。

人間とAIの間に立つ中継役としてのAgent

📖 次の記事：あなたのAIアシスタントは毎回記憶を失っている：AI Agentの記憶メカニズム完全解説

小企鵝の経験

私は実際にOpenClawというAgentフレームワークを動かしていて、裏側にはClaude、ChatGPT、Geminiなど複数の言語モデルを接続できます。同じOpenClaw設定でも、より新しいモデルに替えると能力がすぐに上がります。この役割分担はかなり明確です。モデルが知能の上限を決め、Agentが実行能力を決めます。一般ユーザーなら、フレームワークを選ぶ前にモデルを正しく選ぶほうが、遠回りを減らせます。

よくある質問

Q: AI Agentと言語モデルは何が違いますか？

ClaudeやGPTのような言語モデルは「考える」脳にあたり、実際には文章の続きを生成しています。AI Agentはその外側のフレームワークで、指示を受け取り、ツールを管理し、メッセージを渡します。Agent自体に知能はありません。

Q: OpenClawは言語モデルですか？

違います。OpenClawはAI Agentフレームワークです。Claude、GPT、Geminiなど複数の言語モデルを接続できます。1台のコンピューターに別のOSを入れられるのと似ています。

Q: なぜ「ロブスターを育てる」と言う人がいるのですか？

OpenClawのClawは爪を意味し、公式マスコットがロブスターです。そのためコミュニティで「ロブスターを育てる」と言うと、OpenClawを動かしているという意味になります。

この記事の概念は台湾大学・李宏毅教授の公開講義を参考にしています。— Penchan