前谷歌 TPU 架构师：为何堆满算力仍无法消除推理卡顿？_全局洞察

前谷歌 TPU 架构师：为何堆满算力仍无法消除推理卡顿？

创始人

2026-05-16 11:40:51

0次

（来源：机器之心）

近日，MatX 创始人、前 Google TPU 架构师 Reiner Pope 接受了 Dwarkesh Patel 的深度专访。双方围绕大模型底层的物理约束与数理机制展开对谈，剖析了推理速度受制于显存带宽的原因，探讨了混合专家模型在多卡集群中的摆放策略，并揭示了强化学习时代打破经典缩放法则的逻辑。

01. 厂商的 API 报价比例体现了怎样的调度逻辑？

快速模式」的服务对厂商有何约束？哪些元素决定了推理总延迟的下界？...

02.为什么「Pipeline parallelism」成了徒劳？

稀疏模型「算得快但传得慢」的问题如何缓解？如果跨越交换机传输是低效的，为何不把整个物理机柜造得无限大以容纳所有层？...

03.为什么 LLM 在强化学习时代会被过度训练？

Chinchilla scaling与强化学习后训练有何冲突？为何头部AI实验室要采用「不经济」的重度后训练？...

厂商的 API 报价比例体现了怎样的调度逻辑？

1、在访谈伊始，针对 Dwarkesh Patel 关于「为何支付更高费用能换取更快速度」的疑问，Reiner Pope 指出其背后的原因在于批处理大小。他解释道，像「快速模式」这种服务，本质上是服务商通过减少并行服务的用户数来降低等待延迟。

① 目前如 Claude、Codex 和 Cursor 等平台都提供了类似「快速模式」的服务，用户需支付 6 倍的费用，就能换取 2.5 倍的 Token 流式生成速度（Streaming Speed）。

② 根据大模型推理基准测试平台 AgenticSwarmBench 的定义，流式速度（Streaming speed）即每个并发用户的解码 Token 生成率，它决定了文本或代码在用户屏幕上显现的快慢。

2、用户通过支付更高费用换取低并发运行模式，从而获得了更快的推理速度与响应。但对于服务商而言，这种低并发运行模式会导致硬件的经济效率下降数百甚至上千倍。Reiner Pope 表示，在低并发场景下，物理访存速率而非芯片浮点算力是决定响应速度的约束。

① 「低并发」，即极小的批处理（Batch Size）大小，意味着 GPU 仅同时处理极少乃至单一用户的请求。

② 「低并发」与将成百上千个用户请求打包集中处理的「高并发」模式不同，高并发能够最大化系统吞吐量，但用户需承担更高的延迟。

③ 考虑到自回归解码机制的特征，Reiner Pop 指出，在自回归生成中，每输出一个 Token 必须将整套模型权重从显存中完整读取一次，因此在没有并发的情况下，生成速度的物理上限由显存带宽决定。

3、Reiner Pope 利用 Roofline 模型推演了计算与显存边界的交汇逻辑，交汇点是$$t_{compute$$与$$t_{memory$$ 两条线的交点，他表明，推理总延迟的下界由「计算耗时」与「访存耗时」的最大值决定。

① 由于单次生成运算量极小，耗时完全取决于模型总参数量除以物理显存带宽，这从数学上解释了为何单纯堆砌物理算力无法改善单用户响应延迟。

图：Reiner Pope 推导推理总延迟的下界

4、在推演中 Reiner Pope 强调，如果不通过高并发模式来分摊单次读取模型权重的刚性耗时，系统的经济效率会比打包处理时差上千倍。推演显示，这个理想的平衡点大约等于 300 乘以模型的稀疏比例。

① Reiner Pope 补充，为了解决这一成本问题，数据中心必须不断推高并发量，直到触及访存与计算相平衡的「最优并发量」。

5、随着多用户并发请求的不断叠加，虽然单卡权重读取成本被稀释，但每个请求携带的独立长文本记忆缓存会膨胀并占满物理显存。基于这一约束，Reiner Pope 表明大模型在输入阶段与输出阶段时，会出现成本上的差异。

① Reiner Pope 指出，输入提示词预处理阶段支持高度并行的矩阵计算，硬件利用率高，而输出阶段逐字生成的特性使其依赖显存宽带，这种硬件利用率的区别导致了两者定价的差异。

6、为了维持长效对话上下文的经济性，Reiner Pope 阐述了存储系统生命周期调拨与排空时间的量化映射规则。他表示，维持超长上下文的物理成本取决于数据在存储层级中保留的时长与读取频率的匹配度。

① 按照最优硬件利用原则，存储介质的总容量除以读写带宽（即排空时间）应严格对应业务会话的读取间隔。

② 访谈给出的物理基准显示，高带宽内存（HBM）的排空时间仅约 20 毫秒，而主机 DDR 内存约 1 至 10 秒，Flash 闪存约 1 分钟。

③ 这一基准解释了厂商针对长周期对话为何会提供降低数倍的缓存命中费率，其本质是通过将长时间静置的上下文向下疏散至低成本闪存或系统内存池，利用存储分级对冲高昂的 HBM 独占成本。

④ 根据 API 报价反推，以 Gemini 3.1 为例，在上下文超 20 万 Token 时价格上浮 50%。这是因为当上下文拉长到特定阈值时，读取 KV Cache（键值缓存）的时间会超越计算权重的时间，系统再次陷入访存瓶颈，厂商必须通过涨价来弥补效率损失。

为什么「Pipeline parallelism」成了徒劳？

由于单节点显存容量有尽头，当庞大的混合专家模型彻底超出单卡承载上限时，跨卡与跨服务器放置需要规避通信墙，双方由此展开关于 Scale-up domain（机架级扩展域）的讨论。

1、针对稀疏模型「算得快但传得慢」的痛点，Reiner Pope 以 DeepSeek V3 等架构举例，该模型每次生成仅激活少部分参数，以此降低了计算时间。但由于总参数量巨大，模块必须跨显卡或服务器部署，导致 Token 动态「路由」时产生海量的数据跨节点传输开销...

关注👇🏻「机器之心PRO会员」，前往「收件箱」查看完整解读

上一篇：价降量涨！舟山有商家推出9.9元特价！预计价格还要降……

下一篇：上市首日暴涨68%，全球最大AI芯片公司，冲上670亿美元

前谷歌 TPU 架构师：为何堆满算力仍无法消除推理卡顿？

相关内容

热门资讯