聊 AI 硬體,一定會碰到一個問題:電腦明明早就有 CPU 了,為什麼跑 AI 要特地用 GPU?

這篇用白話把 CPU 和 GPU 的差別講清楚,再看為什麼大型 AI 訓練幾乎都靠 GPU。這是 GPU 那一關 的對照延伸版,也是 AI 硬體供應鏈一條龍 的入門基礎。


一句話差別:重質 vs 重量

CPU(中央處理器)和 GPU(圖形處理器)最關鍵的差別,在核心的「數量」和「分工」。

CPU 有少數幾個到幾十個很強的核心,擅長一件一件按順序,處理複雜、多變的任務。GPU 則有成千上萬個相對簡單的核心,擅長同時平行處理大量同類型的運算。一個重質、一個重量。

打個比方:CPU 像幾位博士生,每個都很厲害,能解很難的題目,但人數少;GPU 像幾千個小學生,每個只會算簡單的加減乘除,但人數超多,一起上的時候,碰到「同一種題目算幾百萬遍」這種工作,反而快得驚人。


為什麼 AI 訓練要用 GPU

關鍵在 AI 訓練的「工作型態」。

訓練一個 AI 模型,底層其實是海量、重複、而且可以同時進行的矩陣運算(一大堆數字的乘加)。這種「同一招做幾百萬次」的工作,正好是 GPU 上千個核心一起算的強項。GPU 一次就能算一大片,CPU 的少數核心卻只能一批批排隊處理,速度差上幾十倍甚至更多。

換句話說,CPU 並沒有不好,只是這種工作型態不對它的盤。AI 的運算長得就是 GPU 最愛的樣子,所以大型模型的訓練與推論,幾乎都跑在 GPU(或更專用的晶片)上。


CPU 沒有被取代,是分工

有了 GPU,CPU 並沒有退場。真實的 AI 系統,是兩者分工合作。

CPU 負責調度、控制整個流程、處理邏輯判斷與資料準備;GPU 負責把大量平行運算扛下來。CPU 像專案經理,安排誰做什麼、什麼時候做;GPU 像生產線上的大批工人,把交辦的同類工作高速做完。少了哪一邊,整套都跑不順。


比 GPU 更專用的:TPU 與 ASIC

GPU 雖然擅長平行運算,但它還算「通用」,很多種運算都能跑。有些公司想更省、更快,於是做出更專用的晶片。

TPU(Google 的張量處理器)和 AI ASIC,就是為特定 AI 工作量身打造的晶片:在那件事上比 GPU 更有效率,代價是通用性較差。它們和 GPU 是並存、分工的關係,而不是誰淘汰誰。想看這幾種晶片怎麼分,讀 AI 晶片是什麼


這一關的重點

CPU 重質、GPU 重量:CPU 用少數強核心跑序列、複雜的任務,GPU 用海量小核心跑平行、同類的運算。

AI 訓練是大量可平行的矩陣乘法,GPU 一次算一大片、CPU 只能慢慢排隊,這就是大型 AI 訓練主要靠 GPU 或專用加速器的原因。而實際系統裡,CPU 負責調度、GPU 負責運算,兩者分工合作。

想看 GPU 在 AI 供應鏈的角色,讀 GPU 那一關;想看各種 AI 晶片怎麼分,讀 AI 晶片是什麼ASIC 是什麼;想回頭看整條鏈,回到 AI 硬體供應鏈一條龍