首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >速度即智能!NVIDIA × Groq 合作内幕首次公开

速度即智能!NVIDIA × Groq 合作内幕首次公开

作者头像
GPUS Lady
发布2026-04-13 10:22:34
发布2026-04-13 10:22:34
1020
举报
文章被收录于专栏:GPUS开发者GPUS开发者

本文整理自2026 NVIDIA GTC 大会现场座谈,对话嘉宾为Groq 创始人、全球首款 TPU 缔造者 Jonathan Ross

在这场深度对话中,他首次公开解密了与 NVIDIA 从偶然接触到闪电合作、共同打造GPU+LPU协同推理架构的全过程,披露了大量此前未对外公布的技术细节、合作契机与商业决策,完整还原了 AI 推理领域这一里程碑式组合从 0 到 1 的诞生故事。

一、缘起:一场从 NVLink 开始的 “闪电联姻”

一切始于2025 年初,英伟达正式向生态开放NVLink高速互联技术,允许合作伙伴接入使用。Groq 的 COO Sunny Madra 主动找到英伟达 CEO 黄仁勋(Jensen),提出一个大胆想法:把 Groq 的 LPU 和英伟达的 GPU 连起来,分工跑大模型

当时 Groq 只有 GPU 和普通以太网,没有 NVLink,依然硬着头皮做实验:把大模型的不同计算任务拆分,分别放到 GPU 和 LPU 上跑,结果一次成功

  • 展示给黄仁勋后,3 天敲定深化合作
  • 3 周完成正式合作协议
  • 签约次日,Groq 创始人全职进驻英伟达
  • 圣诞节当天就拿到电脑开工

这场合作从想法到落地,速度快到刷新半导体行业纪录,也直接奠定了GPU+LPU协同架构的基础。


二、先搞懂:GPU 和 LPU 到底是什么角色?

物流网络做最直观的类比(访谈核心比喻):

GPU = 18 轮重型卡车:擅长长途干线、大批量运输、高吞吐

LPU = 城市配送小车:擅长短途极速配送、低延迟、灵活高效

只用一种车都不高效,两者搭配才是最优解,AI 推理也是同理。

1. GPU(图形处理器)

定位:AI 训练与推理的全能算力底座

强项:高吞吐、大显存、大规模并行计算、处理长上下文

短板:做逐 Token 低延迟生成不划算,延迟偏高

2. LPU(语言处理单元)

定位:专为大模型推理优化的专用芯片

强项:极致低延迟、片上内存快、逐 Token 生成零等待

短板:无法独立支撑超大模型训练与高并发规模化

一句话:GPU 擅长 “量大管饱”,LPU 擅长 “极速响应”,单打独斗都有瓶颈,组队才是王炸


三、核心原理:GPU 与 LPU 怎么分工干活?

大模型的解码层(Decoder Layer)主要分两部分,刚好完美拆分给两个芯片:

Attention 层(注意力层) → 交给 GPU

FFN 层(前馈层) → 交给 LPU

一个典型 40 层解码模型,会在 GPU 和 LPU 之间完成约 40 次高速往返,全程靠NVLink支撑极低延迟传输,两者利用率都拉到最高。


四、为什么非要组合?打破 “快必贵、省必慢” 死局

传统 AI 推理有个无法绕开的成本 - 速度悖论

追求极速 → 单 Token 能耗飙升、成本爆炸

追求省钱 → 速度慢到无法用

速度越快,每兆瓦电能产出的 Token 越少

GPU+LPU 彻底改变这条曲线:

低速区间:保持 Rubin 架构原本的极致性价比

高速区间:LPU 把曲线 “托起来”,不再随速度提升暴跌

最终实现:同功耗下跑出数千 Tokens / 秒,这是单一芯片完全做不到的超高性能

组合后的三大核心提升

  • 硬件利用率翻倍
  • 延迟大幅降低
  • 能效比大幅提升

五、速度即智能:快 AI 到底改变了什么?

访谈中反复强调:Speed is Intelligence(速度就是智能),快到一定程度,AI 的能力边界会被彻底打开。

1. 研发效率指数级提升

代码调试:10 分钟出结果 → 1 分钟甚至更短

产品迭代:周更 → 日更 → 小时级更新

客户需求:会上提出 → 会中就实现,体验拉满

2. 智能体 AI(Agentic AI)爆发

AI 调用 AI 完成任务,需要极快的反馈循环:

几小时写完10 万行以上代码

快速试错、快速迭代,研发速度提升几十倍

以前要几天的任务,现在几小时搞定

3. 交互体验彻底重构

语音 AI 最典型:

慢 AI:必须说 “这是个好问题,让我想想” 凑时间

快 AI:秒问秒答,没有废话,像真人对话

工程师直接用语音指挥 AI 写代码,完全不用打字

4. 商业价值两极分化

企业分两类:

价值守护型:用 AI 降本

价值创造型:用 AI 增收、快速创新速度,是价值创造型公司的核心竞争力,更快的迭代 = 更快的收入增长。


六、真实案例:普通模型靠速度打赢顶级模型

访谈中披露一个震撼实验:用LPU 跑普通规模模型(Qwen 32B),对比顶级大模型(Anthropic Opus)解数学定理:

顶级模型:迭代次数少,但成本极高、速度慢

普通模型 + LPU:迭代次数稍多,但更快、更便宜,最终全部解题完胜顶级模型

结论:速度可以弥补模型规模差距,快本身就是一种强大能力


七、商业化落地:已经量产,Q3 上市

产品状态:已进入量产阶段

上市时间:英伟达官宣2025 年 Q3正式开售

行业地位:可能是历史上爬坡速度最快的半导体产品之一

商用模式:支持分级付费,极速 Token 属于高端增值服务(OpenAI、Anthropic 已采用)


八、关键问答:你最关心的问题都在这

1. LPU 会取代 GPU 吗?

绝对不会。

没有 GPU,LPU 扛不动大模型与高并发

没有 LPU,GPU 做不到极致低延迟

它们是互补搭档,不是竞争对手

2. 为什么大家愿意花更多钱买更快的速度?

就像石油比煤炭贵 7 倍,但煤炭无法驱动飞机:

速度带来竞争优势、迭代效率、用户体验

顶尖工程师、高价值业务,值得用最高速 Token

紧急场景(灾害响应、金融交易)必须要极致速度

3. 技术瓶颈是什么?

不是单一瓶颈,而是均衡优化

  • 内存容量 / 带宽
  • 计算能力
  • 网络延迟 / 带宽

芯片间互联必须全面提升,才能继续突破性能上限。


九、总结:GPU ♥ LPU,AI 推理的未来范式

GPU+LPU 不是简单的芯片叠加,而是AI 推理架构的一次革命

用专业分工替代 “一刀切算力”

用高速互联打通芯片协作壁垒

用更低成本实现更高性能

用极致速度打开 AI 的无限可能

就像人类从煤炭走向石油,我们还无法想象极速 AI 的全部用途,但已经确定:更快的 AI,会重新定义一切。而 GPU 与 LPU 的携手,就是打开这扇门的钥匙。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、缘起:一场从 NVLink 开始的 “闪电联姻”
  • 二、先搞懂:GPU 和 LPU 到底是什么角色?
    • 1. GPU(图形处理器)
    • 2. LPU(语言处理单元)
  • 三、核心原理:GPU 与 LPU 怎么分工干活?
  • 四、为什么非要组合?打破 “快必贵、省必慢” 死局
  • 五、速度即智能:快 AI 到底改变了什么?
    • 1. 研发效率指数级提升
    • 2. 智能体 AI(Agentic AI)爆发
    • 3. 交互体验彻底重构
    • 4. 商业价值两极分化
  • 六、真实案例:普通模型靠速度打赢顶级模型
  • 七、商业化落地:已经量产,Q3 上市
  • 八、关键问答:你最关心的问题都在这
    • 1. LPU 会取代 GPU 吗?
    • 2. 为什么大家愿意花更多钱买更快的速度?
    • 3. 技术瓶颈是什么?
  • 九、总结:GPU ♥ LPU,AI 推理的未来范式
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档