速度即智能！NVIDIA × Groq 合作内幕首次公开

GPUS Lady

发布于 2026-04-13 10:22:34

1020

本文整理自2026 NVIDIA GTC 大会现场座谈，对话嘉宾为Groq 创始人、全球首款 TPU 缔造者 Jonathan Ross。

在这场深度对话中，他首次公开解密了与 NVIDIA 从偶然接触到闪电合作、共同打造GPU+LPU协同推理架构的全过程，披露了大量此前未对外公布的技术细节、合作契机与商业决策，完整还原了 AI 推理领域这一里程碑式组合从 0 到 1 的诞生故事。

一、缘起：一场从 NVLink 开始的 “闪电联姻”

一切始于2025 年初，英伟达正式向生态开放NVLink高速互联技术，允许合作伙伴接入使用。Groq 的 COO Sunny Madra 主动找到英伟达 CEO 黄仁勋（Jensen），提出一个大胆想法：把 Groq 的 LPU 和英伟达的 GPU 连起来，分工跑大模型。

当时 Groq 只有 GPU 和普通以太网，没有 NVLink，依然硬着头皮做实验：把大模型的不同计算任务拆分，分别放到 GPU 和 LPU 上跑，结果一次成功。

展示给黄仁勋后，3 天敲定深化合作
3 周完成正式合作协议
签约次日，Groq 创始人全职进驻英伟达
圣诞节当天就拿到电脑开工

这场合作从想法到落地，速度快到刷新半导体行业纪录，也直接奠定了GPU+LPU协同架构的基础。

二、先搞懂：GPU 和 LPU 到底是什么角色？

用物流网络做最直观的类比（访谈核心比喻）：

GPU = 18 轮重型卡车：擅长长途干线、大批量运输、高吞吐

LPU = 城市配送小车：擅长短途极速配送、低延迟、灵活高效

只用一种车都不高效，两者搭配才是最优解，AI 推理也是同理。

1. GPU（图形处理器）

定位：AI 训练与推理的全能算力底座

强项：高吞吐、大显存、大规模并行计算、处理长上下文

短板：做逐 Token 低延迟生成不划算，延迟偏高

2. LPU（语言处理单元）

定位：专为大模型推理优化的专用芯片

强项：极致低延迟、片上内存快、逐 Token 生成零等待

短板：无法独立支撑超大模型训练与高并发规模化

一句话：GPU 擅长 “量大管饱”，LPU 擅长 “极速响应”，单打独斗都有瓶颈，组队才是王炸。

三、核心原理：GPU 与 LPU 怎么分工干活？

大模型的解码层（Decoder Layer）主要分两部分，刚好完美拆分给两个芯片：

Attention 层（注意力层） → 交给 GPU

FFN 层（前馈层） → 交给 LPU

一个典型 40 层解码模型，会在 GPU 和 LPU 之间完成约 40 次高速往返，全程靠NVLink支撑极低延迟传输，两者利用率都拉到最高。

四、为什么非要组合？打破 “快必贵、省必慢” 死局

传统 AI 推理有个无法绕开的成本 - 速度悖论：

追求极速 → 单 Token 能耗飙升、成本爆炸

追求省钱 → 速度慢到无法用

速度越快，每兆瓦电能产出的 Token 越少

GPU+LPU 彻底改变这条曲线：

低速区间：保持 Rubin 架构原本的极致性价比

高速区间：LPU 把曲线 “托起来”，不再随速度提升暴跌

最终实现：同功耗下跑出数千 Tokens / 秒，这是单一芯片完全做不到的超高性能

组合后的三大核心提升

硬件利用率翻倍
延迟大幅降低
能效比大幅提升

五、速度即智能：快 AI 到底改变了什么？

访谈中反复强调：Speed is Intelligence（速度就是智能），快到一定程度，AI 的能力边界会被彻底打开。

1. 研发效率指数级提升

代码调试：10 分钟出结果 → 1 分钟甚至更短

产品迭代：周更 → 日更 → 小时级更新

客户需求：会上提出 → 会中就实现，体验拉满

2. 智能体 AI（Agentic AI）爆发

AI 调用 AI 完成任务，需要极快的反馈循环：

几小时写完10 万行以上代码

快速试错、快速迭代，研发速度提升几十倍

以前要几天的任务，现在几小时搞定

3. 交互体验彻底重构

语音 AI 最典型：

慢 AI：必须说 “这是个好问题，让我想想” 凑时间

快 AI：秒问秒答，没有废话，像真人对话

工程师直接用语音指挥 AI 写代码，完全不用打字

4. 商业价值两极分化

企业分两类：

价值守护型：用 AI 降本

价值创造型：用 AI 增收、快速创新速度，是价值创造型公司的核心竞争力，更快的迭代 = 更快的收入增长。

六、真实案例：普通模型靠速度打赢顶级模型

访谈中披露一个震撼实验：用LPU 跑普通规模模型（Qwen 32B），对比顶级大模型（Anthropic Opus）解数学定理：

顶级模型：迭代次数少，但成本极高、速度慢

普通模型 + LPU：迭代次数稍多，但更快、更便宜，最终全部解题完胜顶级模型

结论：速度可以弥补模型规模差距，快本身就是一种强大能力。

七、商业化落地：已经量产，Q3 上市

产品状态：已进入量产阶段

上市时间：英伟达官宣2025 年 Q3正式开售

行业地位：可能是历史上爬坡速度最快的半导体产品之一

商用模式：支持分级付费，极速 Token 属于高端增值服务（OpenAI、Anthropic 已采用）

八、关键问答：你最关心的问题都在这

1. LPU 会取代 GPU 吗？

绝对不会。

没有 GPU，LPU 扛不动大模型与高并发

没有 LPU，GPU 做不到极致低延迟

它们是互补搭档，不是竞争对手

2. 为什么大家愿意花更多钱买更快的速度？

就像石油比煤炭贵 7 倍，但煤炭无法驱动飞机：

速度带来竞争优势、迭代效率、用户体验

顶尖工程师、高价值业务，值得用最高速 Token

紧急场景（灾害响应、金融交易）必须要极致速度

3. 技术瓶颈是什么？

不是单一瓶颈，而是均衡优化：

内存容量 / 带宽
计算能力
网络延迟 / 带宽

芯片间互联必须全面提升，才能继续突破性能上限。

九、总结：GPU ♥ LPU，AI 推理的未来范式

GPU+LPU 不是简单的芯片叠加，而是AI 推理架构的一次革命：

用专业分工替代 “一刀切算力”

用高速互联打通芯片协作壁垒

用更低成本实现更高性能

用极致速度打开 AI 的无限可能

就像人类从煤炭走向石油，我们还无法想象极速 AI 的全部用途，但已经确定：更快的 AI，会重新定义一切。而 GPU 与 LPU 的携手，就是打开这扇门的钥匙。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-29，如有侵权请联系 cloudcommunity@tencent.com 删除

产品

本文分享自 GPUS开发者微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度