谷歌第八代TPU一分为二：赌专用推理芯片利润率远超通用GPU

张

张建站

2026/4/30 15:31:58

10分钟阅读

谷歌Cloud Next 2026展示了其第八代TPU的路线图将训练和推理芯片彻底分开。一块追求极致算力一块追求极致性价比。这个分裂背后是一场关于AI计算终极形态的路线博弈。第八代TPU首次分裂为专攻训练的Sunfish和专攻推理的Zebrafish将推理成本战拉到了新的维度。其第七代芯片Ironwood刚上市已用集群效率和能耗比硬刚Nvidia。Anthropic一份3.5吉瓦的算力大单为这场双芯豪赌投下了信任票。Ironwood上市专为推理时代谷歌Cloud Next 2026大会上第七代TPU Ironwood正式向云客户开放使用。谷歌给它贴的标签是“首款面向推理时代的TPU”。每块Ironwood芯片在FP8精度下的峰值算力达到4600万亿次浮点运算4.6 petaFLOPS性能约是上一代Trillium的4倍。它配备了192GB的HBM3e内存带宽为7.37TB每秒。将这些芯片拼接起来一个包含9216块芯片的Ironwood超级集群总算力高达42.5 exaFLOPS这个数字是目前全球最强超算El Capitan的24倍以上。在单芯片规格上Ironwood与Nvidia的Blackwell B200正面交锋。两者FP8算力同在4600万亿次左右HBM内存容量也均为192GB。Nvidia的优势在于单设备互联带宽其NVLink可达14.4Tbps而Ironwood的ICI互联为9.6Tbps。同时Blackwell支持FP4精度能让量化模型的推理吞吐量翻倍这是Ironwood欠缺的。谷歌的差异化优势在集群规模和能效上。Ironwood的每瓦性能是Trillium的约2倍是Nvidia H100的2.8倍。这意味着在需要持续不断响应海量查询的推理任务上谷歌可以用更低的电力成本跑出更高的效率。这些芯片在设计之初就为大型语言模型、混合专家架构、扩散模型及强化学习等核心推理负载做了优化。其矩阵乘法单元阵列规格为256乘256每个周期可执行65536次乘加运算专门应对Transformer推理中占比最大的密集线性代数运算。同时谷歌首次将其内部使用的Pathways分布式运行时开放给云用户方便在Ironwood集群上实现多主机、动态扩展的推理部署。一分为二不再妥协与Ironwood商用化同时公布的是第八代TPU的预览。这一次谷歌决定把产品线一分为二。代号Sunfish的TPU 8t是专为训练设计的加速器由博通操刀。它包含两颗计算芯片、一颗I/O小芯片以及8堆12层HBM3e内存。相比Ironwood的8层堆叠Sunfish的内存带宽高出约30%。代号Zebrafish的TPU 8i则是一款推理专用加速器由联发科设计。它采用更简洁的单计算芯片、单I/O芯片配6堆HBM3e内存的配置。这个设计目标明确用比训练版本低20%到30%的成本实现大规模推理。两款芯片都将采用台积电2纳米制程目标在2027年下半年面市。这是谷歌TPU历史上最重大的架构决策。以往的芯片一块既要能训练也要能推理。但训练和推理的负载正在分道扬镳。训练要求极致的算力密度和内存带宽以处理万亿级参数、持续数周的计算。推理要求的则是极致的性价比和低时延每天响应数十亿次查询成本模型崩了就毫无意义。在一块芯片上两头兼顾永远是妥协。谷歌决定不再妥协。这个决定也锁定了多供应商策略。博通主攻高性能训练芯片这是一份被称为460亿美元AI合同的一部分。联发科主攻成本优化的推理芯片它已证明能为Ironwood提供成本低20%到30%的I/O模块并向台积电要求了7倍的CoWoS先进封装产能来满足谷歌订单。供应链的明牌与3.5吉瓦的信任Ironwood的量产和第八代路线图清晰揭示了谷歌正在编织的AI芯片供应链网。博通负责设计Ironwood及未来的训练芯片TPU 8t合作至少延续到2031年。联发科负责推理芯片TPU 8i及更低成本的v7e、v8e系列。谷歌还在与Marvell谈判讨论开发一种内存处理单元和另一款推理TPU这可能引入第三家设计伙伴。英特尔则继续提供CPU并合作研发定制IPU。这种多供应商打法给了谷歌议价能力、供应链冗余也让它能把最合适的任务交给最擅长的伙伴。其芯片出货量预期更直接反映了扩张野心2026年430万颗2027年1000万颗2028年超过3500万颗。支撑这个目标的资本开支巨大。谷歌2026年的基础设施支出锁定在1750亿到1850亿美元几乎是2025年914亿美元的两倍而2025年的数字已两度上调。其中约60%用于服务器40%流向数据中心和网络设备。加上微软、Meta、亚马逊四大科技公司今年的AI基建总支出逼近7000亿美元。Anthropic是Ironwood最大的客户很可能也是谷歌云计算最重要的客户。2026年Anthropic将能用到最多100万颗TPU芯片、超过1吉瓦的计算容量。第一期直接采购40万颗Ironwood单元仅基于博通的机架价格这笔交易估值就达100亿美元。剩余60万颗通过谷歌Cloud Platform租用。它的合同已在2027年扩展到3.5吉瓦计算这让Anthropic成为第八代TPU双芯的锁定客户。Anthropic年化收入已从2025年底的约90亿美元飙升至超300亿美元并用“被显著的性价比提升所打动”来描述这次合作。同时它也用着Amazon的Trainium和Nvidia的GPU甚至在探索自研芯片。一家AI公司一面要考虑自己造芯一面又签下数吉瓦的TPU大单这本身就说明推理需求之庞大以及AI硬件经济学已成为竞争的核心变量。市场走向“定制”Ironwood比Nvidia的Blackwell晚一年到来。这十二个月里所有主要云厂商都在加速自研芯片。亚马逊将自研芯片业务估值为500亿美元并暗示将向外出售Trainium。微软一月发布的Maia 200号称在FP4性能上是亚马逊Trainium 3的3倍。Meta在持续开发MTIA。AI定制ASIC市场正以44.6%的年增速成长而GPU市场增速为16.1%。有分析预测到2028年定制芯片将占AI芯片市场的45%而Nvidia在推理市场的份额可能从超过90%降至20%到30%。Nvidia的回应是NVLink Fusion试图将自己的互联标准变成定制芯片的默认选择即便这些芯片意在取代Nvidia GPU。黄仁勋对定制芯片的威胁轻描淡写“造出更好的东西没那么容易。”他说的不假。CUDA生态、开发者工具、互联标准构成的迁移成本是冷冰冰的硬件参数无法体现的。但方向已经很明朗。超大规模云商自研芯片并非要在每一项指标上击败Nvidia而是因为他们确信为自己的特定负载、在自己控制的海量规模上跑专用推理芯片比按照Nvidia的利润率购买通用GPU划算得多。芯片竞赛是一场利润率的竞赛。谷歌现在把一颗芯片拆成两颗造赌的是创造力带来的利润终将大过渠道力。参考资料https://thenextweb.com/news/google-ironwood-tpu-inference-cloud-next

别再踩坑了！用华为云镜像5分钟搞定d2l 0.17.6的正确安装（附版本错误排查）

别再踩坑了！用华为云镜像5分钟搞定d2l 0.17.6的正确安装（附版本错误排查） 深度学习初学者在实践《动手学深度学习》时，往往会遇到各种环境配置问题。其中d2l包的安装看似简单，实则暗藏玄机——版本不匹配可能导致后续…...

2026/4/30 15:30:39 阅读更多 →

客户端接入实战：在 LangChain 中集成 MCP 工具调用

系列导读你现在看到的是《MCP 协议与工具调用体系深度实践：从原理到生产落地的全栈指南》的第 4/10 篇，当前这篇会重点解决：展示 MCP 与主流 AI 框架的无缝集成，验证协议在实际工程中的可用性。上一篇回顾：第 3 篇《手撸一个 MCP 服务端：从零实现 Tool 注册与执行引擎…...

2026/4/30 15:25:22 阅读更多 →

让老旧视频重获新生：Video2X AI视频增强工具全攻略

让老旧视频重获新生：Video2X AI视频增强工具全攻略【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/vi/video2x …...

2026/4/30 15:22:48 阅读更多 →