英伟达200亿美元收购Groq背后的真实原因分析
创始人
2026-01-05 04:52:24
0

今年夏天,AI芯片创业公司Groq以69亿美元的估值融资7.5亿美元。仅仅三个月后,英伟达在假期期间投入了近三倍的资金来许可其技术并挖走其人才。

在随后的几天里,网络上的AI专家们疯狂猜测英伟达如何能够证明花费200亿美元获得Groq的技术和人才是合理的。

专家们认为英伟达知道一些我们不知道的事情。理论范围很广,从这笔交易表明英伟达打算用SRAM取代HBM,到从三星获得额外代工产能的策略,或试图打压潜在竞争对手。有些理论比其他理论更站得住脚,我们当然也有自己的一些看法。

目前我们所知道的情况

英伟达支付200亿美元非独家许可Groq的知识产权,其中包括其语言处理单元(LPU)和相关软件库。

Groq的LPU构成了其高性能推理即服务产品的基础,在交易完成后它将保留并继续不间断运营该业务。

这种安排明显是为了避免监管审查。英伟达并非在收购Groq,而是在许可其技术。不过...它实际上完全是在收购Groq。

除此之外,如何描述一项让Groq首席执行官Jonathan Ross和总裁Sunny Madra以及大部分工程人才都转移到英伟达的交易呢?

当然,Groq在技术上仍然作为一家独立公司存在,由Simon Edwards作为新任首席执行官掌舵,但随着大部分人才的流失,很难看出这家芯片创业公司如何能长期生存。

因此,英伟达只是将竞争对手从董事会中除名的论点是成立的。鉴于此举可能引发反垄断诉讼,这一举措是否值得200亿美元是另一回事。

一定是为了SRAM,对吧

关于英伟达动机的一个突出理论是,Groq的LPU使用静态随机存取存储器(SRAM),其速度比当今GPU中的高带宽存储器(HBM)快几个数量级。

单个HBM3e堆栈今天可以实现每模块约1TB/s的存储器带宽和每GPU 8TB/s。Groq LPU中的SRAM可以快10到80倍。

由于大语言模型推理主要受存储器带宽限制,Groq可以实现惊人的快速Token生成率。在Llama 3.3 70B中,Artificial Analysis的基准测试人员报告说,Groq的芯片可以输出350 tok/s。在运行专家混合模型(如gpt-oss 120B)时,性能甚至更好,芯片达到了465 tok/s。

我们也正处于全球内存短缺的中期,对HBM的需求从未如此之高。因此,我们理解为什么有些人可能会看这笔交易并认为Groq可以帮助英伟达应对迫在眉睫的内存危机。

最简单的答案往往是正确的答案——只是这次不是。

很抱歉必须告诉你这一点,但SRAM并没有什么特别之处。它基本上存在于每个现代处理器中,包括英伟达的芯片。

SRAM也有一个相当明显的缺点。它在空间效率方面不是你所说的那种。我们谈论的是每个芯片最多几百兆字节,相比之下,12层高的HBM3e堆栈为36GB,每个GPU总计288GB。

Groq的LPU每个只有230MB的SRAM,这意味着你需要数百甚至数千个才能运行一个适度的大语言模型。在16位精度下,你需要140GB的内存来保存模型权重,每128,000个Token序列还需要额外的40GB。

Groq需要574个LPU使用高速互连结构拼接在一起才能运行Llama 70B。

你可以通过构建更大的芯片来解决这个问题——Cerebras的每个WSE-3晶圆片都具有超过40GB的板载SRAM,但这些芯片有餐盘大小,消耗23千瓦。无论如何,Groq没有走这条路线。

可以说,如果英伟达想要制造一个使用SRAM而不是HBM的芯片,它不需要购买Groq来做到这一点。

跟随数据流

那么,英伟达向Groq投钱是为了什么?

我们最好的猜测是它真的是为了Groq的"流水线架构"。这本质上是一种可编程数据流设计,专门用于加速推理期间计算的线性代数计算。

今天的大多数处理器都使用冯·诺依曼架构。指令从内存中获取、解码、执行,然后写入寄存器或存储在内存中。现代实现引入了分支预测等功能,但原理基本相同。

数据流基于不同的原理工作。数据流架构不是一堆加载-存储操作,而是在数据流经芯片时对其进行处理。

正如Groq所解释的,这些数据传送带"在芯片的SIMD(单指令/多数据)功能单元之间移动指令和数据"。

"在装配过程的每个步骤中,功能单元通过传送带接收指令。指令告诉功能单元应该去哪里获取输入数据(哪条传送带),应该对该数据执行哪个功能,以及应该将输出数据放在哪里。"

根据Groq的说法,这种架构有效地消除了拖累GPU的瓶颈,因为这意味着LPU永远不会等待内存或计算跟上。

Groq可以通过LPU和它们之间实现这一点,这是个好消息,因为Groq的LPU本身并不那么强大。在纸面上,它们实现了BF16性能,大致与RTX 3090或L40S的INT8性能相当。但是,请记住这是理想情况下的峰值FLOPS。理论上,数据流架构应该能够在相同功耗下实现更好的实际性能。

值得指出的是,数据流架构并不局限于以SRAM为中心的设计。例如,NextSilicon的数据流架构使用HBM。Groq选择了仅SRAM设计,因为它保持了事情的简单,但没有理由英伟达不能基于Groq的IP构建使用SRAM、HBM或GDDR的数据流加速器。

那么,如果数据流这么好,为什么它不更常见呢?因为要做对它是极其困难的。但是,Groq已经设法使其工作,至少对于推理而言。

正如Ai2的Tim Dettmers最近所说,像英伟达这样的芯片制造商正在迅速耗尽他们可以拉动的杠杆来提升芯片性能。数据流为英伟达提供了在寻求额外速度时可以应用的新技术,与Groq的交易意味着Jensen Huang的公司在将其商业化方面处于更好的位置。

推理优化的计算堆栈

Groq还为英伟达提供了推理优化的计算架构,这是它一直严重缺乏的。不过,它的适用范围有点神秘。

英伟达的大多数"推理优化"芯片,如H200或B300,与它们的"主流"兄弟芯片在根本上没有什么不同。事实上,H100和H200之间的唯一区别是后者使用了更快、容量更高的HBM3e,这恰好有利于推理密集型工作负载。

提醒一下,大语言模型推理可以分为两个阶段:计算密集型的预填充阶段(在此期间处理提示)和存储器带宽密集型的解码阶段(在此期间模型生成输出Token)。

这种情况在2026年英伟达的Rubin一代芯片中正在发生变化。9月份宣布的Rubin CPX专门设计用于加速推理管道的计算密集型预填充阶段,释放其HBM封装的Vera Rubin超级芯片来处理解码。

这种分解架构最大限度地减少了资源争用,有助于提高利用率和吞吐量。

Groq的LPU在设计上针对推理进行了优化,但它们没有足够的SRAM来成为非常好的解码加速器。然而,它们可能作为推测性解码部件很有趣。

如果你不熟悉,推测性解码是一种使用小型"草案"模型来预测较大模型输出的技术。当这些预测正确时,系统性能可以翻倍或三倍,从而降低每Token成本。

这些推测性草案模型通常相当小,通常最多消耗几十亿个参数,使得Groq的现有芯片设计对于此类设计是合理的。

我们需要专用的推测性解码加速器吗?当然,为什么不呢。它值200亿美元吗?这取决于你如何衡量它。与总估值约为200亿美元的上市公司(如惠普公司或Figma)相比,这可能看起来很高。但对于英伟达来说,200亿美元是一个相对负担得起的金额——仅上个季度它就录得230亿美元的运营现金流。最终,这意味着英伟达有更多的芯片和配件可以销售。

代工厂多元化怎么样

我们见过的最不可能的观点是Groq以某种方式为英伟达开辟了额外的代工产能的建议。

Groq目前使用GlobalFoundries制造其芯片,并计划在三星的4纳米工艺技术上构建其下一代部件。相比之下,英伟达几乎所有的制造都在台积电进行,并且严重依赖台湾巨头的先进封装技术。

这个理论的问题在于它实际上没有任何意义。英伟达并非不能去三星代工其芯片。事实上,英伟达以前就在三星代工过芯片——这家韩国巨头制造了英伟达Ampere一代的大部分产品。英伟达需要台积电的先进封装技术来制造A100等某些部件,但它不需要这家台湾公司来制造Rubin CPX。三星或英特尔可能都能胜任这项工作。

所有这些都需要时间,许可Groq的IP和雇用其团队并不能改变这一点。

现实是英伟达可能不会对Groq当前一代的LPU做任何事情。Jensen可能只是在下长棋,正如他一直以来所做的那样。

Q&A

Q1:Groq的LPU使用SRAM相比传统GPU有什么优势?

A:Groq的LPU使用静态随机存取存储器(SRAM),速度比当今GPU中的高带宽存储器(HBM)快10到80倍。这使得Groq在大语言模型推理中能够实现惊人的Token生成速度,在Llama 3.3 70B测试中达到350 tok/s,在专家混合模型中甚至可以达到465 tok/s。

Q2:英伟达为什么要花200亿美元收购Groq而不是自己开发类似技术?

A:英伟达主要看重Groq的"流水线架构",这是一种可编程数据流设计。虽然数据流架构理论上性能更好,但要做对它是极其困难的。Groq已经成功实现了这一技术,为英伟达提供了新的性能提升技术,在芯片性能优化手段逐渐耗尽的情况下具有重要价值。

Q3:这笔收购对AI芯片市场会产生什么影响?

A:这笔交易实际上是英伟达通过许可协议变相收购了Groq的核心人才和技术,包括CEO和大部分工程团队都转移到英伟达。虽然Groq作为独立公司继续存在,但失去核心人才后长期生存能力存疑。这为英伟达提供了推理优化的计算架构,填补了其在这一领域的空白。

相关内容

让“健身去哪儿”不再难
(来源:中国体育报)转自:中国体育报“体育场地设施建设”被列入“十...
2026-03-07 15:58:51
媒体报道︱2025年区域用...
转自:国家能源局媒体报道3月6日,国家能源局发布2025年区域用电...
2026-03-07 15:58:47
通胀才是主角:黑色系涨价背...
(来源:钢界说)夜盘期钢市场再次上演高震行情,螺纹主力合约收于30...
2026-03-07 15:58:42
北京周末终于回暖了,明天最...
今天白天北京天气晴转多云,预计白天最高气温8℃上下,天气条件较适宜...
2026-03-07 15:58:37
从北美工程机械展看中国企业...
(来源:经济日报)转自:经济日报北美规模最大的工程机械行业展会——...
2026-03-07 15:58:33
赵梅委员:美国朋友访问西藏...
新京报讯(记者陈静)全国政协十四届四次会议第二场“委员通道”集体采...
2026-03-07 15:58:23
美国前伊朗问题特使:美以对...
曾在拜登政府时期担任美国伊朗问题特使的罗伯特·马利日前在接受媒体采...
2026-03-07 15:58:18
以军:摧毁哈梅内伊地堡
据新华社,以色列国防军6日发表声明称,已摧毁已故伊朗最高领袖哈梅内...
2026-03-07 15:58:14
赵梅委员:中国始终以开放姿...
3月7日14时,全国政协十四届四次会议第二场“委员通道”集体采访在...
2026-03-07 15:58:09

热门资讯

太原延长住房公积金贷款年限,贷... 央广网北京3月7日消息(记者门庭婷)3月5日,太原市住房公积金管理中心发布关于调整住房公积金贷款政策...
新都区银币典当在哪个地方 家人们,生活中总有突发状况,急需用钱的时候。就像有位朋友,家里老人突然生病住院,手术费还差不少,一家...
北京200余家医院已支持医保移... 3月6日,北京市医保局表示,全市200余家医院目前已开通医保移动支付功能。医保参保人可通过“京通”小...
金融赋能标志性产业链|齐鲁银行... 作为山东省轻工产业链的“金融链主”,齐鲁银行紧扣省委、省政府工业经济“头号工程”部署,以创新金融服务...
3月6日,美联储隔夜逆回购协议... 每经AI快讯,3月7日,周五(3月6日),美联储隔夜逆回购协议(RRP)使用规模为15.12亿美元。...
美联储哈玛克:美联储利率政策很... 据报道,美联储哈玛克3月6日表示,美联储利率政策很可能在相当长一段时间内维持不变。美联储政策处于有利...
老虎证券(TIGR.US)3月... 截至2026年3月6日(美国东部时间)收盘,老虎证券(TIGR.US)报收于7.2美元/股,下跌1....
奥瑞金种业(SEED.US)3... 截至2026年3月6日(美国东部时间)收盘,奥瑞金种业(SEED.US)报收于1.04美元/股,上涨...
CFTC:截至3月3日当周,投... 据美国商品期货交易委员会(CFTC):截至3月3日当周,投机者所持COMEX黄金净多头头寸增加918...
平安银行获得发明专利授权:“项... 证券之星消息,根据天眼查APP数据显示平安银行(000001)新获得一项发明专利授权,专利名为“项目...