GPU 是什麼？為什麼它是 AI 算力主力，跟 CPU 又差在哪

一篇看懂 GPU：為什麼訓練 AI 要用一堆 GPU，而不是更通用的 CPU？用白話拆解 GPU 和 CPU 的差別、CUDA 與 Tensor Core 在做什麼、NVIDIA 為何拿下八成以上市場，以及從 H100 到 GB300 這些 AI GPU 世代差在哪。

5/27 · Penna

本文目錄

每次看 AI 新聞，總會聽到「某公司又買了幾萬顆 GPU」。為什麼是 GPU，不是聽起來更高級的 CPU？這顆晶片到底有什麼魔力，讓全世界的 AI 公司搶著要？

這篇就把 GPU 講白。先看它是什麼、和 CPU 差在哪，再談為什麼 AI 非它不可、市場由誰主導，以及從 H100 到 GB300 這些世代的差別。這是 AI 硬體供應鏈一條龍第 1 關「AI 晶片」的入門版。

GPU 是什麼？

GPU 的全名是 Graphics Processing Unit，圖形處理器。它原本是為遊戲、3D 繪圖設計的，特色是擁有大量結構簡單的小運算核心，能同時處理成千上萬筆相似的運算。

這個「人多」的特性，後來被發現非常適合跑 AI。因為訓練神經網路，本質上就是把問題拆成無數個小小的矩陣運算，一起算。GPU 剛好就是為這種場面而生。

打個比方：CPU 像一位精算高等數學的教授，一次專心解一道難題；GPU 像一千個只會加減法的小學生，每人分一小塊，一起算反而快得多。而 AI 要算的，正是幾億道簡單題目同時上場的場面。

核心數據快照

下面幾個數字幫你抓住 GPU 這一關的量級。市占類數字多為研調或政策機構估計，看的時候抓量級就好。

主題	數值	時點／性質
NVIDIA AI 用 GPU 市占	約八成以上（雲端自研 ASIC 另計，口徑不同）	2025-2026，研調／政策機構估計
NVIDIA 資料中心年營收	FY2026 約 1,937 億美元	NVIDIA 官方財報
旗艦 GPU 記憶體：H200 / B300	H200 約 141GB HBM3e；B300 約 288GB HBM3e	2024-2025，官方規格
GB300 NVL72 整櫃	72 顆 Blackwell Ultra GPU、20TB GPU 記憶體	2026，官方規格
次世代 Vera Rubin	規劃 2026 下半年起由夥伴供應	官方路線圖／前瞻

GPU 跟 CPU 差在哪

兩者最大的差別在「核心的數量與分工」。

CPU 核心數量少，但每一顆都很強、很全能，配上大量快取與分支控制，擅長一步接一步、需要邊做邊判斷的工作，例如作業系統、資料庫、程式邏輯。GPU 反過來，把晶片塞滿大量較小的核心，追求的是「同時做很多事」的總吞吐量，適合矩陣運算、影像處理、科學模擬與深度學習。

在一台 AI 伺服器裡，這兩種晶片其實是分工合作的：CPU 負責調度資料、管理程式與網路，GPU 負責跑模型最吃重的運算。所以兩者是各司其職的夥伴關係。

為什麼 AI 非 GPU 不可

關鍵在「平行」這兩個字。

AI 模型的訓練與推論，骨子裡是海量的矩陣與向量運算同時進行。GPU 裡有兩種核心特別重要：一種是 CUDA Core，大量通用的小計算單元，負責一般的平行運算；另一種是 Tensor Core，專門加速 AI 最常用的矩陣乘法，還支援 FP16、FP8、FP4 這些低精度格式（用較少位元換更快的運算）。AI 算力大多花在這類運算上。

旁邊還要配上高速的 HBM（High Bandwidth Memory，高頻寬記憶體），把模型權重和資料餵得夠快，運算核心才不會閒著等資料。想多了解這塊記憶體，可以看 HBM 那一關。

AI GPU 市場：誰在供應

這一關高度集中在 NVIDIA 身上。

依研調與政策機構估計，NVIDIA 在 AI 用 GPU 市場約占八成以上；若把雲端大廠自研的 ASIC 一起算進「AI 加速器」，口徑會不同。它的護城河不只在晶片，更在 CUDA 這套軟體生態：開發者寫好的程式都跑在上面，要整套搬到別家成本很高。AMD 用 Instinct MI 系列（如 MI350 配 288GB HBM3E）在後追趕；Google、AWS、Microsoft 等雲端大廠則走自研 ASIC 的路線，在自家雲裡省成本、做差異化（這條線可看 ASIC 那一關）。

要提醒的是，市占與營收會隨新品、財報與口徑變動，這裡描述的是產業格局，不是個股評價。

主流 AI GPU 世代一覽

把這幾年的主力世代攤開看：

世代／產品	定位	記憶體
H100（Hopper）	前一代訓練／推論主力	80-94GB HBM
H200（Hopper）	Hopper 記憶體升級版	約 141GB HBM3e
B200（Blackwell）	新世代主力	約 180-192GB HBM3e（依 SKU）
B300（Blackwell Ultra）	記憶體再加大	約 288GB HBM3e
GB200／GB300	Grace CPU + Blackwell GPU 超級晶片／平台	GB300 NVL72 整櫃 72 顆 GPU、20TB 記憶體
Vera Rubin	下一代路線圖（2026 下半年起）	HBM4

重點抓兩個趨勢：一是記憶體越做越大、頻寬越拉越高；二是從「單顆晶片」走向「整櫃系統」，把幾十顆 GPU 用高速互連綁成一台超級電腦。想看旗艦世代的細節，可接著讀 Blackwell 那一關。

台灣在這一關的角色

GPU 的架構設計不在台灣（NVIDIA 在美國設計），但實體的製造高度仰賴台灣。NVIDIA 的 Blackwell 用台積電客製的 4NP 製程生產，還要靠 CoWoS 等先進封裝把 GPU 和 HBM 綁在一起，最後由台系廠商（鴻海、廣達、緯創等）組裝成整櫃 AI 伺服器。換句話說，一顆 GPU 從矽片到能用的系統，大半路程都在台灣繞了一圈。

這一關的重點

看完 GPU，先記住它的本事：平行運算。大量小核心同時開工，剛好對上 AI「海量簡單運算一起做」的胃口，這就是 AI 非它不可的原因。

這一關由 NVIDIA 主導，護城河是晶片加上 CUDA 軟體生態；AMD 與雲端自研 ASIC 在後追趕。而每一顆 GPU 的背後，都連著台積電的製程、先進封裝與台灣的伺服器組裝。看懂 GPU，等於拿到了看懂整條 AI 硬體供應鏈的入場券。

想看記憶體怎麼餵資料，看 HBM；想看旗艦世代規格，看 Blackwell；想看雲端自研晶片，看 ASIC；想回頭看整條鏈八關，回到供應鏈總覽。

FAQ

GPU 是什麼？跟 CPU 差在哪？

GPU（圖形處理器）原本為遊戲繪圖設計，特色是有大量小運算核心，能同時處理成千上萬筆相似運算。CPU（中央處理器）核心少但每顆強，擅長一步一步、需要判斷的工作。打個比方：CPU 像一位精算高等數學的教授，一次解一題；GPU 像一千個只會加減法的小學生，人多力量大。AI 的運算剛好是大量簡單運算同時做，所以靠 GPU 快得多。

AI 為什麼一定要用 GPU？

因為 AI 訓練與推論的本質，是數以億計的矩陣與向量運算同時進行。這種「大量、相似、可同時做」的特性，正好是 GPU 的強項。GPU 裡的 Tensor Core 更是專門加速 AI 常見的矩陣運算（如 FP16、FP8、FP4 等低精度格式）。用 CPU 也能跑，但速度會慢上好幾個數量級。

CUDA 是什麼？為什麼大家換不掉 NVIDIA？

CUDA 是 NVIDIA 的一整套軟體開發環境，包含程式語言、編譯器、加速函式庫（如 cuDNN、NCCL），以及深度整合的 PyTorch、TensorFlow 生態。大家寫好的 AI 程式幾乎都跑在 CUDA 上，換到別家晶片要重寫、重新最佳化，成本很高。這套軟體生態，是 NVIDIA 比晶片本身更難被取代的護城河。

H100、B200、GB300 這些 AI GPU 差在哪？

簡單說是世代與規格的差別。H100、H200 屬 Hopper 世代，H200 配 141GB HBM3e；B200、B300 屬較新的 Blackwell 世代，B300 配 288GB HBM3e。GB200、GB300 則是把 Grace CPU 與 Blackwell GPU 做成超級晶片（Superchip）再組成系統，例如 GB300 NVL72 整櫃有 72 顆 GPU。越新的世代，記憶體越大、頻寬越高、整櫃整合度越強。

GPU 都是 NVIDIA 做的嗎？

設計上以 NVIDIA 為主（AI 加速器市場約八成以上，依口徑不同估在八到九成），AMD 的 Instinct MI 系列在追趕，Google、AWS、Microsoft 等雲端大廠則自研 ASIC（如 TPU、Trainium）並存。製造端則幾乎都靠台積電的先進製程，再經 CoWoS 等先進封裝與台廠的伺服器組裝，才變成能用的系統。

免責聲明與利益揭露

本文僅供一般資訊與教育參考，不構成投資、法律、稅務或任何專業建議。市場與法規可能隨時變動，文中資訊僅反映撰寫當時狀況。

本站非經金管會許可之證券投資顧問事業。文中提及之任何證券、虛擬資產或金融商品，僅為新聞整理，不構成買賣建議。所有投資決策請自行判斷並承擔風險。

本文部分或全部內容涉及 AI（Penna）參與生成，實際比例依個別文章而異，內容可能存在資訊錯誤或遺漏，不構成投資或財務建議。請以原始來源查證為準。

作者可能持有文中提及之部分資產，持倉可能隨時變動，恕不逐次更新。

詳見本站法律聲明與利益揭露與隱私政策。