TPU获得的关注度肉眼可见地在攀升。
过去一个月,围绕谷歌TPU的消息接连不断。4月底,谷歌发布了第八代TPU,首次将训练和推理拆分为两款独立的芯片;紧接着,市场上相继传出谷歌向英特尔下达大规模采购订单、谷歌拟与三星开发新一代TPU的消息。不过,谷歌方面对此均未作出公开回应。
但可以预见的一个趋势是,随着谷歌TPU的大幅入局,过去几年作为AI算力代名词的GPU,不再是唯一的选择。当算力需求从训练转向推理时代,TPU的优势开始凸显,从过去的“配角”愈加有站上主舞台之势。
GPU和TPU是两种不同的芯片品类。GPU诞生已有二十多年,全称是Graphics Processing Unit(图形处理器),技术相对成熟,代表公司有英伟达、AMD。TPU则是谷歌从2015年起专门为AI设计的新品类,它的全称是Tensor Processing Unit(张量处理器),专攻深度学习所需的矩阵运算。
集群计算需求增长
TPU为何在此时成为焦点?先要看市场需求正在发生什么变化。
国家数据局发布的《全国数据资源调查报告(2025年)》显示,2025年,中国AI推理数据量首次超过训练数据量。
TrendForce集邦咨询的数据预测,北美五大云服务商2026年AI训练算力预计增长56%,而推理算力将暴增122%,后者增速是前者的两倍以上。IDC预测,到2029年中国市场推理算力占比将接近八成。
推理正逐渐成为算力需求的主场,而这也在为TPU创造机会。
首先,模型越来越大,单颗芯片无法支撑,必须依靠多颗芯片的集群协同完成推理任务,而TPU在集群效率上有先天优势。
“智能体正在逐步替代人类的部分工作,其本质是用写程序的能力控制电脑。只有当模型足够大时,才能完成程序员能做的事。如今的模型参数从亿级已达到万亿级别,单颗芯片无法承载完整推理任务,必须依靠几十甚至上百颗芯片互联集群协同运算。”中昊芯英创始人及CEO杨龚轶凡说。
中昊芯英是一家聚焦TPU芯片技术研发的企业,杨龚轶凡表示,GPU架构是以单卡通用算力和软件生态见长,而TPU则是在大规模集群的通信与协同效率上有优势。
一位前谷歌TPU工程师在一档视频节目中介绍,GPU单机内部依靠NVLink、板载NVSwitch实现多卡互联,跨机架大规模集群还需额外采购交换机、光模块搭建高速网络,配套硬件是一笔大额基建开支;而TPU机柜内芯片可直接互通,仅在跨机柜扩展时使用自研光电路交换机,无需大批量采购商用高速交换设备,在同等集群通信性能下,整体部署硬件成本更低。
其次,推理阶段对性价比的敏感度远高于训练。当Token消耗呈指数级暴增,单位算力成本也成为了更受重视的指标。从架构上看,TPU是专用芯片,剔除了GPU的图形渲染、通用计算等功能,聚焦于深度学习矩阵运算。杨龚轶凡指出,谷歌TPU在发布时,对比同等生产工艺的GPU,有3到5倍的性能提升。
细分场景里的选择
什么场景下GPU更合适,什么场景下TPU更优?
这需要回到芯片设计的原点。
杨龚轶凡说,GPU最早是为了在电脑屏幕上显示逼真的3D游戏画面而设计的。它要把三维物体从各个角度算成二维画面,还要算光线、颜色,让画面足够真实。这就导致GPU里面塞了上万个计算核心,像一个大工厂里有一万名工人同时干活。优点是并发能力强,处理图像和矩阵运算非常快。但缺点是,一旦某个工人算错了,你根本没法在一万名工人里快速找到是谁出了问题。
而AI深度学习的计算模式完全不同。深度学习模型是一层一层往下计算的,每一层内部可以高并发,但层与层之间有先后顺序。这种模式不需要GPU那么复杂的调试和通用能力。于是,TPU这类专门为AI设计的芯片应运而生,只聚焦深度学习最常用的运算。
这就好比,从之前要同时调度一万个工人,变成只需要调度一千个按固定流水线工作的工人,控制逻辑简单得多。
基于这种架构差异,杨龚轶凡预测,未来AI芯片市场将形成“442”格局:40%是极致性价比的纯ASIC(专用集成电路)芯片,只能跑固定一两个模型的推理,性价比极致;40%是可编程的DSA(领域专用架构)芯片,比如TPU,支持深度学习网络的算法,芯片利用率不如ASIC,但比GPU强很多;20%是通用GPU,留给还在快速变化的新算法和研究场景。
不过,这并不意味着TPU对GPU是替代关系,而是要看具体场景的适配。
在杨龚轶凡看来,20%的GPU市场会长期存在。原因在于,AI领域的新算法、新方向还在不断涌现,研究人员需要一个通用、灵活的平台来快速验证想法。CUDA生态(英伟达围绕GPU硬件打造的一系列软件和工具链)经过20年打磨,成熟度高,当新的计算场景出现时,GPU仍然是首选。
而TPU的优势在于性价比和生态建设成本。杨龚轶凡举例解释,TPU的设计思路是让开发者“只管开车,不用修车”。它的硬件指令专为AI计算优化,同时适配PyTorch这类主流框架。PyTorch就像一个AI“乐高工具箱”,开发者用熟悉的“积木”搭模型,剩下的交给TPU编译器自动优化,不用为了迁就硬件去学一套新编程语言。
相比之下,CUDA更像一套“修车工具”,开发者必须懂“发动机原理”才能玩得转,这套工具是行业积累了十多年的成果。TPU则是依托现有成熟AI框架,大幅降低了软件适配门槛,这也是其性价比优势的重要来源。
当下,AI Agents逐步进化为全球社会生产力的核心基座,带动Token消耗量指数级攀升和“Token经济”时代的来临。当Token消耗呈指数级增长,芯片的利用率、性价比成为更加重要的比拼项,TPU迎来新的机会,开始成为AI芯片赛道上除GPU之外的“另一个选项”。
