聊 AI 硬體,一定會碰到一個問題:電腦明明早就有 CPU 了,為什麼跑 AI 要特地用 GPU?
這篇用白話把 CPU 和 GPU 的差別講清楚,再看為什麼大型 AI 訓練幾乎都靠 GPU。這是 GPU 那一關 的對照延伸版,也是 AI 硬體供應鏈一條龍 的入門基礎。
一句話差別:重質 vs 重量
CPU(中央處理器)和 GPU(圖形處理器)最關鍵的差別,在核心的「數量」和「分工」。
CPU 有少數幾個到幾十個很強的核心,擅長一件一件按順序,處理複雜、多變的任務。GPU 則有成千上萬個相對簡單的核心,擅長同時平行處理大量同類型的運算。一個重質、一個重量。
打個比方:CPU 像幾位博士生,每個都很厲害,能解很難的題目,但人數少;GPU 像幾千個小學生,每個只會算簡單的加減乘除,但人數超多,一起上的時候,碰到「同一種題目算幾百萬遍」這種工作,反而快得驚人。
為什麼 AI 訓練要用 GPU
關鍵在 AI 訓練的「工作型態」。
訓練一個 AI 模型,底層其實是海量、重複、而且可以同時進行的矩陣運算(一大堆數字的乘加)。這種「同一招做幾百萬次」的工作,正好是 GPU 上千個核心一起算的強項。GPU 一次就能算一大片,CPU 的少數核心卻只能一批批排隊處理,速度差上幾十倍甚至更多。
換句話說,CPU 並沒有不好,只是這種工作型態不對它的盤。AI 的運算長得就是 GPU 最愛的樣子,所以大型模型的訓練與推論,幾乎都跑在 GPU(或更專用的晶片)上。
CPU 沒有被取代,是分工
有了 GPU,CPU 並沒有退場。真實的 AI 系統,是兩者分工合作。
CPU 負責調度、控制整個流程、處理邏輯判斷與資料準備;GPU 負責把大量平行運算扛下來。CPU 像專案經理,安排誰做什麼、什麼時候做;GPU 像生產線上的大批工人,把交辦的同類工作高速做完。少了哪一邊,整套都跑不順。
比 GPU 更專用的:TPU 與 ASIC
GPU 雖然擅長平行運算,但它還算「通用」,很多種運算都能跑。有些公司想更省、更快,於是做出更專用的晶片。
TPU(Google 的張量處理器)和 AI ASIC,就是為特定 AI 工作量身打造的晶片:在那件事上比 GPU 更有效率,代價是通用性較差。它們和 GPU 是並存、分工的關係,而不是誰淘汰誰。想看這幾種晶片怎麼分,讀 AI 晶片是什麼。
這一關的重點
CPU 重質、GPU 重量:CPU 用少數強核心跑序列、複雜的任務,GPU 用海量小核心跑平行、同類的運算。
AI 訓練是大量可平行的矩陣乘法,GPU 一次算一大片、CPU 只能慢慢排隊,這就是大型 AI 訓練主要靠 GPU 或專用加速器的原因。而實際系統裡,CPU 負責調度、GPU 負責運算,兩者分工合作。
想看 GPU 在 AI 供應鏈的角色,讀 GPU 那一關;想看各種 AI 晶片怎麼分,讀 AI 晶片是什麼 與 ASIC 是什麼;想回頭看整條鏈,回到 AI 硬體供應鏈一條龍。