聊 AI 硬件,一定会碰到一个问题:电脑明明早就有 CPU 了,为什么跑 AI 要特地用 GPU?

这篇用大白话把 CPU 和 GPU 的差别讲清楚,再看为什么大型 AI 训练几乎都靠 GPU。这是 GPU 那一关 的对照延伸版,也是 AI 硬件供应链一条龙 的入门基础。


一句话差别:重质 vs 重量

CPU(中央处理器)和 GPU(图形处理器)最关键的差别,在核心的「数量」和「分工」。

CPU 有少数几个到几十个很强的核心,擅长一件一件按顺序,处理复杂、多变的任务。GPU 则有成千上万个相对简单的核心,擅长同时并行处理大量同类型的运算。一个重质、一个重量。

打个比方:CPU 像几位博士生,每个都很厉害,能解很难的题目,但人数少;GPU 像几千个小学生,每个只会算简单的加减乘除,但人数超多,一起上的时候,碰到「同一种题目算几百万遍」这种工作,反而快得惊人。


为什么 AI 训练要用 GPU

关键在 AI 训练的「工作形态」。

训练一个 AI 模型,底层其实是海量、重复、而且可以同时进行的矩阵运算(一大堆数字的乘加)。这种「同一招做几百万次」的工作,正好是 GPU 上千个核心一起算的强项。GPU 一次就能算一大片,CPU 的少数核心却只能一批批排队处理,速度差上几十倍甚至更多。

换句话说,CPU 并没有不好,只是这种工作形态不对它的路子。AI 的运算长得就是 GPU 最爱的样子,所以大型模型的训练与推理,几乎都跑在 GPU(或更专用的芯片)上。


CPU 没有被取代,是分工

有了 GPU,CPU 并没有退场。真实的 AI 系统,是两者分工合作。

CPU 负责调度、控制整个流程、处理逻辑判断与数据准备;GPU 负责把大量并行运算扛下来。CPU 像项目经理,安排谁做什么、什么时候做;GPU 像生产线上的大批工人,把交办的同类工作高速做完。少了哪一边,整套都跑不顺。


比 GPU 更专用的:TPU 与 ASIC

GPU 虽然擅长并行运算,但它还算「通用」,很多种运算都能跑。有些公司想更省、更快,于是做出更专用的芯片。

TPU(谷歌的张量处理器)和 AI ASIC,就是为特定 AI 工作量身打造的芯片:在那件事上比 GPU 更有效率,代价是通用性较差。它们和 GPU 是并存、分工的关系,而不是谁淘汰谁。想看这几种芯片怎么分,读 AI 芯片是什么


这一关的重点

CPU 重质、GPU 重量:CPU 用少数强核心跑串行、复杂的任务,GPU 用海量小核心跑并行、同类的运算。

AI 训练是大量可并行的矩阵乘法,GPU 一次算一大片、CPU 只能慢慢排队,这就是大型 AI 训练主要靠 GPU 或专用加速器的原因。而实际系统里,CPU 负责调度、GPU 负责运算,两者分工合作。

想看 GPU 在 AI 供应链的角色,读 GPU 那一关;想看各种 AI 芯片怎么分,读 AI 芯片是什么ASIC 是什么;想回头看整条链,回到 AI 硬件供应链一条龙