
本文整理自2026 NVIDIA GTC 大会现场座谈,对话嘉宾为Groq 创始人、全球首款 TPU 缔造者 Jonathan Ross。

在这场深度对话中,他首次公开解密了与 NVIDIA 从偶然接触到闪电合作、共同打造GPU+LPU协同推理架构的全过程,披露了大量此前未对外公布的技术细节、合作契机与商业决策,完整还原了 AI 推理领域这一里程碑式组合从 0 到 1 的诞生故事。
一切始于2025 年初,英伟达正式向生态开放NVLink高速互联技术,允许合作伙伴接入使用。Groq 的 COO Sunny Madra 主动找到英伟达 CEO 黄仁勋(Jensen),提出一个大胆想法:把 Groq 的 LPU 和英伟达的 GPU 连起来,分工跑大模型。
当时 Groq 只有 GPU 和普通以太网,没有 NVLink,依然硬着头皮做实验:把大模型的不同计算任务拆分,分别放到 GPU 和 LPU 上跑,结果一次成功。
这场合作从想法到落地,速度快到刷新半导体行业纪录,也直接奠定了GPU+LPU协同架构的基础。
用物流网络做最直观的类比(访谈核心比喻):
GPU = 18 轮重型卡车:擅长长途干线、大批量运输、高吞吐
LPU = 城市配送小车:擅长短途极速配送、低延迟、灵活高效
只用一种车都不高效,两者搭配才是最优解,AI 推理也是同理。
定位:AI 训练与推理的全能算力底座
强项:高吞吐、大显存、大规模并行计算、处理长上下文
短板:做逐 Token 低延迟生成不划算,延迟偏高
定位:专为大模型推理优化的专用芯片
强项:极致低延迟、片上内存快、逐 Token 生成零等待
短板:无法独立支撑超大模型训练与高并发规模化
一句话:GPU 擅长 “量大管饱”,LPU 擅长 “极速响应”,单打独斗都有瓶颈,组队才是王炸。
大模型的解码层(Decoder Layer)主要分两部分,刚好完美拆分给两个芯片:
Attention 层(注意力层) → 交给 GPU
FFN 层(前馈层) → 交给 LPU
一个典型 40 层解码模型,会在 GPU 和 LPU 之间完成约 40 次高速往返,全程靠NVLink支撑极低延迟传输,两者利用率都拉到最高。
传统 AI 推理有个无法绕开的成本 - 速度悖论:
追求极速 → 单 Token 能耗飙升、成本爆炸
追求省钱 → 速度慢到无法用
速度越快,每兆瓦电能产出的 Token 越少
GPU+LPU 彻底改变这条曲线:
低速区间:保持 Rubin 架构原本的极致性价比
高速区间:LPU 把曲线 “托起来”,不再随速度提升暴跌
最终实现:同功耗下跑出数千 Tokens / 秒,这是单一芯片完全做不到的超高性能
组合后的三大核心提升
访谈中反复强调:Speed is Intelligence(速度就是智能),快到一定程度,AI 的能力边界会被彻底打开。
代码调试:10 分钟出结果 → 1 分钟甚至更短
产品迭代:周更 → 日更 → 小时级更新
客户需求:会上提出 → 会中就实现,体验拉满
AI 调用 AI 完成任务,需要极快的反馈循环:
几小时写完10 万行以上代码
快速试错、快速迭代,研发速度提升几十倍
以前要几天的任务,现在几小时搞定
语音 AI 最典型:
慢 AI:必须说 “这是个好问题,让我想想” 凑时间
快 AI:秒问秒答,没有废话,像真人对话
工程师直接用语音指挥 AI 写代码,完全不用打字
企业分两类:
价值守护型:用 AI 降本
价值创造型:用 AI 增收、快速创新速度,是价值创造型公司的核心竞争力,更快的迭代 = 更快的收入增长。
访谈中披露一个震撼实验:用LPU 跑普通规模模型(Qwen 32B),对比顶级大模型(Anthropic Opus)解数学定理:
顶级模型:迭代次数少,但成本极高、速度慢
普通模型 + LPU:迭代次数稍多,但更快、更便宜,最终全部解题完胜顶级模型
结论:速度可以弥补模型规模差距,快本身就是一种强大能力。
产品状态:已进入量产阶段
上市时间:英伟达官宣2025 年 Q3正式开售
行业地位:可能是历史上爬坡速度最快的半导体产品之一
商用模式:支持分级付费,极速 Token 属于高端增值服务(OpenAI、Anthropic 已采用)
绝对不会。
没有 GPU,LPU 扛不动大模型与高并发
没有 LPU,GPU 做不到极致低延迟
它们是互补搭档,不是竞争对手
就像石油比煤炭贵 7 倍,但煤炭无法驱动飞机:
速度带来竞争优势、迭代效率、用户体验
顶尖工程师、高价值业务,值得用最高速 Token
紧急场景(灾害响应、金融交易)必须要极致速度
不是单一瓶颈,而是均衡优化:
芯片间互联必须全面提升,才能继续突破性能上限。
GPU+LPU 不是简单的芯片叠加,而是AI 推理架构的一次革命:
用专业分工替代 “一刀切算力”
用高速互联打通芯片协作壁垒
用更低成本实现更高性能
用极致速度打开 AI 的无限可能
就像人类从煤炭走向石油,我们还无法想象极速 AI 的全部用途,但已经确定:更快的 AI,会重新定义一切。而 GPU 与 LPU 的携手,就是打开这扇门的钥匙。