AI算力变局：TPU正成为“另一个选项”

TPU获得的关注度肉眼可见地在攀升。

过去一个月，围绕谷歌TPU的消息接连不断。4月底，谷歌发布了第八代TPU，首次将训练和推理拆分为两款独立的芯片；紧接着，市场上相继传出谷歌向英特尔下达大规模采购订单、谷歌拟与三星开发新一代TPU的消息。不过，谷歌方面对此均未作出公开回应。

但可以预见的一个趋势是，随着谷歌TPU的大幅入局，过去几年作为AI算力代名词的GPU，不再是唯一的选择。当算力需求从训练转向推理时代，TPU的优势开始凸显，从过去的“配角”愈加有站上主舞台之势。

GPU和TPU是两种不同的芯片品类。GPU诞生已有二十多年，全称是Graphics Processing Unit（图形处理器），技术相对成熟，代表公司有英伟达、AMD。TPU则是谷歌从2015年起专门为AI设计的新品类，它的全称是Tensor Processing Unit（张量处理器），专攻深度学习所需的矩阵运算。

集群计算需求增长

TPU为何在此时成为焦点？先要看市场需求正在发生什么变化。

国家数据局发布的《全国数据资源调查报告（2025年）》显示，2025年，中国AI推理数据量首次超过训练数据量。

TrendForce集邦咨询的数据预测，北美五大云服务商2026年AI训练算力预计增长56%，而推理算力将暴增122%，后者增速是前者的两倍以上。IDC预测，到2029年中国市场推理算力占比将接近八成。

推理正逐渐成为算力需求的主场，而这也在为TPU创造机会。

首先，模型越来越大，单颗芯片无法支撑，必须依靠多颗芯片的集群协同完成推理任务，而TPU在集群效率上有先天优势。

“智能体正在逐步替代人类的部分工作，其本质是用写程序的能力控制电脑。只有当模型足够大时，才能完成程序员能做的事。如今的模型参数从亿级已达到万亿级别，单颗芯片无法承载完整推理任务，必须依靠几十甚至上百颗芯片互联集群协同运算。”中昊芯英创始人及CEO杨龚轶凡说。

中昊芯英是一家聚焦TPU芯片技术研发的企业，杨龚轶凡表示，GPU架构是以单卡通用算力和软件生态见长，而TPU则是在大规模集群的通信与协同效率上有优势。

一位前谷歌TPU工程师在一档视频节目中介绍，GPU单机内部依靠NVLink、板载NVSwitch实现多卡互联，跨机架大规模集群还需额外采购交换机、光模块搭建高速网络，配套硬件是一笔大额基建开支；而TPU机柜内芯片可直接互通，仅在跨机柜扩展时使用自研光电路交换机，无需大批量采购商用高速交换设备，在同等集群通信性能下，整体部署硬件成本更低。

其次，推理阶段对性价比的敏感度远高于训练。当Token消耗呈指数级暴增，单位算力成本也成为了更受重视的指标。从架构上看，TPU是专用芯片，剔除了GPU的图形渲染、通用计算等功能，聚焦于深度学习矩阵运算。杨龚轶凡指出，谷歌TPU在发布时，对比同等生产工艺的GPU，有3到5倍的性能提升。

细分场景里的选择

什么场景下GPU更合适，什么场景下TPU更优？

这需要回到芯片设计的原点。

杨龚轶凡说，GPU最早是为了在电脑屏幕上显示逼真的3D游戏画面而设计的。它要把三维物体从各个角度算成二维画面，还要算光线、颜色，让画面足够真实。这就导致GPU里面塞了上万个计算核心，像一个大工厂里有一万名工人同时干活。优点是并发能力强，处理图像和矩阵运算非常快。但缺点是，一旦某个工人算错了，你根本没法在一万名工人里快速找到是谁出了问题。

而AI深度学习的计算模式完全不同。深度学习模型是一层一层往下计算的，每一层内部可以高并发，但层与层之间有先后顺序。这种模式不需要GPU那么复杂的调试和通用能力。于是，TPU这类专门为AI设计的芯片应运而生，只聚焦深度学习最常用的运算。

这就好比，从之前要同时调度一万个工人，变成只需要调度一千个按固定流水线工作的工人，控制逻辑简单得多。

基于这种架构差异，杨龚轶凡预测，未来AI芯片市场将形成“442”格局：40%是极致性价比的纯ASIC（专用集成电路）芯片，只能跑固定一两个模型的推理，性价比极致；40%是可编程的DSA（领域专用架构）芯片，比如TPU，支持深度学习网络的算法，芯片利用率不如ASIC，但比GPU强很多；20%是通用GPU，留给还在快速变化的新算法和研究场景。

不过，这并不意味着TPU对GPU是替代关系，而是要看具体场景的适配。

在杨龚轶凡看来，20%的GPU市场会长期存在。原因在于，AI领域的新算法、新方向还在不断涌现，研究人员需要一个通用、灵活的平台来快速验证想法。CUDA生态（英伟达围绕GPU硬件打造的一系列软件和工具链）经过20年打磨，成熟度高，当新的计算场景出现时，GPU仍然是首选。

而TPU的优势在于性价比和生态建设成本。杨龚轶凡举例解释，TPU的设计思路是让开发者“只管开车，不用修车”。它的硬件指令专为AI计算优化，同时适配PyTorch这类主流框架。PyTorch就像一个AI“乐高工具箱”，开发者用熟悉的“积木”搭模型，剩下的交给TPU编译器自动优化，不用为了迁就硬件去学一套新编程语言。

相比之下，CUDA更像一套“修车工具”，开发者必须懂“发动机原理”才能玩得转，这套工具是行业积累了十多年的成果。TPU则是依托现有成熟AI框架，大幅降低了软件适配门槛，这也是其性价比优势的重要来源。

当下，AI Agents逐步进化为全球社会生产力的核心基座，带动Token消耗量指数级攀升和“Token经济”时代的来临。当Token消耗呈指数级增长，芯片的利用率、性价比成为更加重要的比拼项，TPU迎来新的机会，开始成为AI芯片赛道上除GPU之外的“另一个选项”。

AI算力变局：TPU正成为“另一个选项”

发表评论取消回复

联系我们

400-800-8888

AI算力变局：TPU正成为“另一个选项”

发表评论 取消回复

请登录

联系我们

400-800-8888

发表评论取消回复