
全文概览
AI浪潮正从训练转向推理,这是商业落地的关键转折。英伟达GTC2026前夕,黄仁勋在财报中暗示与Groq的200亿美元低延迟推理技术许可,将如当年并购Mellanox般扩展架构。这是否标志着英伟达锁定推理主导?Tokens经济下,延迟、功耗、内存瓶颈与NAND价格正重塑战场。推理非“一刀切”:数据中心追求吞吐量,边缘强调低延迟,KV缓存膨胀加剧内存压力。电力冷却与供应链(如CoWoS、HBM分配)成隐忧,专业化ASIC崛起。你是否好奇,英伟达的CUDA生态能否包容Groq解码器,化解这些碎片化挑战?论坛专家剖析:推理市场碎片化,成功指标因负载而异——首末字生成时间、每瓦性能、每代币成本。GTC或揭晓路线图,延长硬件生命周期,影响存储与计算布局。
阅读收获
👉 划线高亮 观点批注

特别突发分析 由 Dave Vellante[1] 撰写
在本周英伟达公司GTC 2026大会召开前夕,我们重申我们的核心论点:人工智能的重心正从“训练速度有多快”转向“推理服务有多好”。
训练开启了现代AI时代。推理才是商业化落地、实现投资回报的关键战场。Tokens 经济、延迟要求、功耗限制、内存瓶颈、NAND价格,以及最终终端客户的付费意愿,将决定AI采用者能多快、多大程度从中获益。在最近一次英伟达财报电话会议上,首席执行官黄仁勋暗示,英伟达计划通过Groq的解码器技术更深入地布局低延迟推理——并且他明确表示“我们期待下月在GTC上分享更多细节”。低延迟推理正是边缘计算焕发活力、智能体系统创造价值、基础设施投资开始产生回报的地方。
黄仁勋在财报电话会议上实质上向投资者传递了两点信息。首先,他提及英伟达与Groq价值200亿美元的非独家低延迟推理技术许可协议,并称这将像当年整合Mellanox一样,“用Groq的创新拓展英伟达架构”——他特别强调“我们期待下月在GTC上分享更多”。
其次,他强化了近期战略举措的逻辑:CUDA与架构兼容性使英伟达能将软件优化打包进一个技术栈,从而让Hopper、Blackwell、Ampere等多代架构持续受益——延长硬件生命周期、提升每美元和每瓦性能表现,并为客户提供通往新增长飞轮的入口。黄仁勋暗示,Groq将成为这一更广泛架构内的一个“加速器”——这既是对Mellanox整合策略的呼应,也是针对推理/解码器机遇的布局。
基于此背景,我们举办了theCUBE + 纽约证券交易所联合论坛——“推理引擎:构建规模化高性能AI”——旨在探讨当面对技术专家们实际面临的诸多约束时,“规模化推理”的真正含义。这场在theCUBE帕洛阿尔托工作室举行的论坛强调,推理市场正在快速扩张,但它并非单一市场,而是一个由不同成功指标、不同瓶颈、各异经济模型构成的碎片化工作负载集合。在规模化层面找到清晰的横向商业化机会仍然困难。我们认为,我们仍处于推理计算的“建造它,他们就会来”阶段。
在论坛中,d-Matrix的Sid Sheth总结行业情绪时表示,推理“已不再是什么秘密”,尤其是在“英伟达-Groq交易之后”——业界现已公认“AI计算的下一波大浪潮将围绕推理展开”。
我们更认同他的第二点:推理并非“一刀切”方案。它运行在大型数据中心、小型数据中心和边缘环境——处理大模型和小模型——且“成功标准各不相同”。这才是真实的市场动态,这也使得精确量化市场规模变得困难。“训练阶段赢家通吃”的局面是由英伟达主导的默认技术栈造就的。关键问题是,同样的动态是否会延续到推理阶段。(从行业内极致定制化的ASIC芯片来看推理场景的极致架构竞赛才揭开序幕)换言之,英伟达/Groq交易是验证了替代方案,还是将把它们逐出市场?关键决定因素将是延迟、上下文长度、成本、吞吐量和功耗;以及这些指标如何因工作负载不同而呈现差异。
普遍假设是,市场足够大且足够碎片化,即使像英伟达这样的领导者表现出色并可能占据大部分份额,仍会留下足够的空白空间供竞争者发展。
Positron的Mitesh Agrawal用“是也不是”来定义推理,针对“每个部署都是独特的雪花”这一观点——意味着工作负载定义因买家优先级、首字生成时间、延迟、末字生成时间、上下文长度、内存和吞吐量而异。
他还提出了一个常被市场叙事忽略的观点:英伟达GPU成为推理工作负载默认选择,是因为它们“按美元计算”最具性价比,但替代方案仍有显著机会,尤其是在KV缓存随代码生成和视频生成而扩大的情况下,能提供高速并优化昂贵内存资源的方案将脱颖而出。
这直接关联到我们开头强调的黄仁勋对Groq的暗示为何如此重要。具体而言,边缘推理是英伟达庞大产品组合中一个 glaring(显眼)的缺口。Groq交易填补了这一缺口。如果英伟达即将在其技术栈内加入低延迟解码路径,这将是试图将最高价值的推理机会之一重新纳入CUDA生态系统——正如当年Mellanox将网络优势整合进英伟达平台。黄仁勋实质上在说:“我们不会放弃低延迟机会,而最佳路径就在我们的控制范围内。”
正如观察者常争论模型基准测试,基础设施建造者正直面 glaring(严峻)的能源短缺问题。Akash Systems的Felix Ejeckam解释道,电网没有足够电力支撑计算发展轨迹,且随着推理部署规模扩大,压力会加剧。
Akash的方案是:通过在GPU上直接应用实验室培育的钻石来降低冷却负荷,使温度下降约10-15°C,并将PUE(电源使用效率)推近1.0,且无需重建设施。我们未验证其具体经济性,但认为其方向正确。关键是,推理经济性不仅取决于硅片,也取决于解决电力和冷却问题。
我们也注意到Banyan Ventures的Sam Awrabi的投资者评论,他说“硬件耗资巨大”的观念忽略了电力可能成为总成本的有意义组成部分。这是推理成为新战场的主要原因——即随着推理使用量增长,使用量推高电力需求,电力推高账单。因此,降低电力才能在更低成本下生成更多代币。
随着定价压力成为瓶颈,论坛讨论转向内存。Sid Sheth强调,d-Matrix有意避开CoWoS和HBM,采用堆叠定制DRAM和LPDDR层级,以减少对英伟达主导的供应链中最紧缺部件的依赖。
Mitesh补充了更广泛的视角:内存价格上涨会传导至整个技术栈(从HBM到DRAM再到LP5X),且除价格外,分配才是真正的瓶颈——“在英伟达之前拿到CoWoS和HBM的分配?祝你好运……然后是博通生态……然后是AMD……然后是亚马逊……然后是微软……然后是Meta。”
我们的观点是,制造产能是一个常被忽视的关键约束。如今,数据中心加速器正从台积电那里吸走晶圆厂产能,因为像英伟达(GPU)、博通(TPU等)等供应商相比消费级芯片设计者,对台积电提出了更激进的增长承诺。
总体而言,我们关注两大主要约束——半导体制造工艺的前端与后端。前端产能指上游晶圆制造产能,即先进逻辑工艺节点,硅片和逻辑电路在此被安置在晶圆上。后端(或称中段)则是CoWoS(晶圆上芯片上基板)等先进封装发挥作用的地方,如两位嘉宾所述。CoWoS是一种先进封装形式,将制造好的芯片与高带宽内存、基板等集成,形成最终加速器封装。
台积电等晶圆厂必须平衡前端与后端产能。去年后端是主要瓶颈,虽然仍紧张,但瓶颈正转向工艺前端。关键是AI需求爆炸式增长,但硅片产能跟不上。”
这对GTC的相关性在于,黄仁勋的架构兼容性论点同样也是供应链论点。当同一CUDA优化的工作能惠及庞大安装基数多年,旧安装基数就能持续产生收入——且客户能更从容地适应英伟达的产品节奏,因为技术栈保持前沿。这降低了客户流失率,提高了转换成本,形成了锁定效应,凸显了一个微妙但强大的推理护城河。
论坛让我们得以一窥推理时代图景:
如果黄仁勋的Mellanox类比成真,我们预期英伟达将把Groq呈现为平台扩展,这绝非其强大产品线的简单附加。它很可能表现为一种能力,在提升延迟敏感型推理工作负载的同时,保留了CUDA“一次编写,随处运行”的优势。这就是英伟达如何将其优势与推理叙事保留在自身架构内——即使Groq交易在技术上是非独家的。
我们相信GTC 2026将被铭记为英伟达为其平台注入更强推理叙事的关键时刻。黄仁勋“我们将在GTC上分享更多”的暗示,预示着一份可能重塑推理叙事格局的Groq路线图即将揭晓。在英伟达技术栈内加入低延迟解码路径,我们认为这将延长安装基数的有效生命周期。与英伟达战略对齐的组织,很可能最快获得每瓦每美元性能的最佳提升。
话虽如此,推理市场足够庞大,替代方案将在超低延迟需求、细分工作负载和供应约束创造机会的地方取得成功。推理是收入增长与物理约束交汇之处——赢家将是那些将推理市场的细微差别转化为可预测性能、更低运营成本、以及可在数据中心和边缘环境部署的系统的公司。
您对边缘AI推理的机遇有何看法?机会在哪里?您看到哪些风险以及如何缓解?
原文标题:Nvidia GTC 2026: Jensen Huang’s Groq ‘Mellanox moment’ and the inference land grab[2]
---【本文完】---