前谷歌 TPU 架构师:为何堆满算力仍无法消除推理卡顿?
创始人
2026-05-16 11:40:51
0

(来源:机器之心)

近日,MatX 创始人、前 Google TPU 架构师 Reiner Pope 接受了 Dwarkesh Patel 的深度专访。双方围绕大模型底层的物理约束与数理机制展开对谈,剖析了推理速度受制于显存带宽的原因,探讨了混合专家模型在多卡集群中的摆放策略,并揭示了强化学习时代打破经典缩放法则的逻辑。

目录

01. 厂商的 API 报价比例体现了怎样的调度逻辑?

快速模式」的服务对厂商有何约束?哪些元素决定了推理总延迟的下界...

02.为什 么「Pipeline parallelism」成了徒劳?

稀疏模型「算得快但传得慢」的问题如何缓解?如果跨越交换机传输是低效的,为何不把整个物理机柜造得无限大以容纳所有层?...

03.为什么 LLM 在强化学习时代会被过度训练?

Chinchilla scaling与强化学习后训练有何冲突?为何头部AI实验室要采用「不经济」的重度后训练?...

厂商的 API 报价比例体现了怎样的调度逻辑?

1、在访谈伊始,针对 Dwarkesh Patel 关于「为何支付更高费用能换取更快速度」的疑问,Reiner Pope 指出其背后的原因在于批处理大小。 他解释道,像「快速模式」这种服务,本质上是服务商通过减少并行服务的用户数来降低等待延迟。

① 目前如 Claude、Codex 和 Cursor 等平台都提供了类似「快速模式」的服务,用户需支付 6 倍的费用,就能换取 2.5 倍的 Token 流式生成速度(Streaming Speed)。

② 根据大模型推理基准测试平台 AgenticSwarmBench 的定义,流式速度(Streaming speed)即每个并发用户的解码 Token 生成率,它决定了文本或代码在用户屏幕上显现的快慢。

2、用户通过支付更高费用换取低并发运行模式,从而获得了更快的推理速度与响应。但对于服务商而言,这种低并发运行模式会导致硬件的经济效率下降数百甚至上千倍。Reiner Pope 表示,在低并发场景下,物理访存速率而非芯片浮点算力是决定响应速度的约束 。

① 「低并发」,即极小的批处理(Batch Size)大小,意味着 GPU 仅同时处理极少乃至单一用户的请求。

② 「低并发」与将成百上千个用户请求打包集中处理的「高并发」模式不同,高并发能够最大化系统吞吐量,但用户需承担更高的延迟。

③ 考虑到自回归解码机制的特征,Reiner Pop 指出,在自回归生成中,每输出一个 Token 必须将整套模型权重从显存中完整读取一次,因此在没有并发的情况下,生成速度的物理上限由显存带宽决定。

3、Reiner Pope 利用 Roofline 模型推演了计算与显存边界的交汇逻辑,交汇点是$$t_{compute$$$$t_{memory$$ 两条线的交点,他表明,推理总延迟的下界由「计算耗时」与「访存耗时」的最大值决定。

① 由于单次生成运算量极小,耗时完全取决于模型总参数量除以物理显存带宽,这从数学上解释了为何单纯堆砌物理算力无法改善单用户响应延迟。

图:Reiner Pope 推导推理总延迟的下界

4、在推演中 Reiner Pope 强调,如果不通过高并发模式来分摊单次读取模型权重的刚性耗时,系统的经济效率会比打包处理时差上千倍。推演显示,这个理想的平衡点大约等于 300 乘以模型的稀疏比例。

① Reiner Pope 补充,为了解决这一成本问题,数据中心必须不断推高并发量,直到触及访存与计算相平衡的「最优并发量」。

5、随着多用户并发请求的不断叠加,虽然单卡权重读取成本被稀释,但每个请求携带的独立长文本记忆缓存会膨胀并占满物理显存。基于这一约束,Reiner Pope 表明大模型在输入阶段与输出阶段时,会出现成本上的差异。

① Reiner Pope 指出,输入提示词预处理阶段支持高度并行的矩阵计算,硬件利用率高,而输出阶段逐字生成的特性使其依赖显存宽带,这种硬件利用率的区别导致了两者定价的差异。

6、为了维持长效对话上下文的经济性,Reiner Pope 阐述了存储系统生命周期调拨与排空时间的量化映射规则。他表示,维持超长上下文的物理成本取决于数据在存储层级中保留的时长与读取频率的匹配度。

① 按照最优硬件利用原则,存储介质的总容量除以读写带宽(即排空时间)应严格对应业务会话的读取间隔。

② 访谈给出的物理基准显示,高带宽内存(HBM)的排空时间仅约 20 毫秒,而主机 DDR 内存约 1 至 10 秒,Flash 闪存约 1 分钟。

③ 这一基准解释了厂商针对长周期对话为何会提供降低数倍的缓存命中费率,其本质是通过将长时间静置的上下文向下疏散至低成本闪存或系统内存池,利用存储分级对冲高昂的 HBM 独占成本。

④ 根据 API 报价反推,以 Gemini 3.1 为例,在上下文超 20 万 Token 时价格上浮 50%。这是因为当上下文拉长到特定阈值时,读取 KV Cache(键值缓存)的时间会超越计算权重的时间, 系统再次陷入访存瓶颈,厂商必须通过涨价来弥补效率损失。

为什 么「Pipeline parallelism」成了徒劳?

由于单节点显存容量有尽头,当庞大的混合专家模型彻底超出单卡承载上限时,跨卡与跨服务器放置需要规避通信墙,双方由此展开关于 Scale-up domain(机架级扩展域)的讨论。

1、针对稀疏模型「算得快但传得慢」的痛点,Reiner Pope 以 DeepSeek V3 等架构举例,该模型每次生成仅激活少部分参数,以此降低了计算时间。 但由于总参数量巨大,模块必须跨显卡或服务器部署,导致 Token 动态「路由」时产生海量的数据跨节点传输开销...

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

相关内容

风吹麦浪盛景如画中国金色地...
来源:@央视财经微博 ...
2026-05-16 13:22:29
“伊”路相伴 时光信笺 |...
(来源:奔腾融媒 新闻广播)“伊”路相伴 时光信笺万物互联,初心不...
2026-05-16 13:21:43
北京胡同时光叙事(65):...
校场口胡同,东起宣武门外大街,西至老墙根街,这条街巷的成型与演变,...
2026-05-16 13:20:50
小米15 5G手机直降,到...
小米15 5G手机,拥有12GB+256GB大容量存储,颜色为经典...
2026-05-16 13:19:23
红米Turbo 4 5G手...
红米 Turbo 4 5G手机全新上市,搭载高性能5G芯片,支持双...
2026-05-16 13:18:13
突然大跌!超12万人爆仓
5月15日,全球资产除原油外,欧美股市、黄金、白银、加密货币全线下...
2026-05-16 13:17:02
“云霞出海曙,梅柳渡江春”...
初唐诗人杜审言的宦游思乡千古名作,《和晋陵陆丞早春游望》被后世鉴赏...
2026-05-16 13:14:01
2026年春季许昌市干部知...
转自:许昌发布5月16日,2026年春季许昌市干部知识创新讲堂第三...
2026-05-16 13:12:49
企业数量、营收规模、总市值...
截至今年第一季度,北京市已累计培育超1.9万家创新型中小企业,超1...
2026-05-16 13:11:35

热门资讯

风吹麦浪盛景如画中国金色地毯太... 来源:@央视财经微博 【#风吹麦浪盛景如画##中国金色地...
“伊”路相伴 时光信笺 | 2... (来源:奔腾融媒 新闻广播)“伊”路相伴 时光信笺万物互联,初心不改,通信传情,向暖而行。跨越山海的...
北京胡同时光叙事(65):校场... 校场口胡同,东起宣武门外大街,西至老墙根街,这条街巷的成型与演变,始终依附于北京外城西南片区的军事布...
小米15 5G手机直降,到手仅... 小米15 5G手机,拥有12GB+256GB大容量存储,颜色为经典黑色。它搭载骁龙8至尊版,性能强劲...
红米Turbo 4 5G手机1... 红米 Turbo 4 5G手机全新上市,搭载高性能5G芯片,支持双模全网通,配备6.67英寸高刷OL...
突然大跌!超12万人爆仓 5月15日,全球资产除原油外,欧美股市、黄金、白银、加密货币全线下挫。加密货币全线下跌,截至发稿,比...
“云霞出海曙,梅柳渡江春”——... 初唐诗人杜审言的宦游思乡千古名作,《和晋陵陆丞早春游望》被后世鉴赏家不约而同誉为“初唐五律的冠军”。...
2026年春季许昌市干部知识创... 转自:许昌发布5月16日,2026年春季许昌市干部知识创新讲堂第三期举行。省文物考古研究院原党委书记...
企业数量、营收规模、总市值,北... 截至今年第一季度,北京市已累计培育超1.9万家创新型中小企业,超1.3万家专精特新中小企业,1214...
马上评|盲人女孩摆拍,伤害的是... 几天前,一则视频在网上热传:一个盲人女孩在一处盲道上正常行走时,被一辆骑行在盲道上的电动自行车撞倒,...