314| Nvidia AI工厂：重塑企业计算的底层逻辑

数据存储前沿技术

发布于 2026-05-18 11:18:59

1860

全文概览

在摩尔定律放缓与算力需求爆炸的矛盾下，企业计算正经历一场范式转移。Nvidia 正在构建的“AI工厂”不仅是 GPU 的堆叠，更是一套旨在吸收传统 x86 架构、重构存储与网络协议的完整企业操作平台。当 Token 成为新的价值单位，企业如何从“后台 IT 成本中心”转型为“智能生产系统”？这种转型是否意味着大型机时代的系统集成范式正在回归？本文将深入剖析 Nvidia 如何通过软硬件协同设计，将计算、存储与网络融合为统一的 AI 结构，并探讨这一变革对未来十年企业架构与商业模式的深远影响。

阅读收获

架构范式演进： 理解“机架即计算机”的系统集成逻辑，掌握 AI 工厂如何通过 NVLink、DPU 与专用网络结构，解决传统 x86 架构在处理大规模推理时的延迟与带宽瓶颈。
存储层级重构： 认识到存储正从被动的“数据仓库”演变为主动的“上下文内存层”，理解 KV 缓存、RDMA 直接路径在 AI 生产系统中的核心地位。
经济模型转变： 洞察企业如何通过“Token 经济学”衡量生产力，学习如何将资本支出（CapEx）从单纯的硬件更新转向构建具备实时语义调和能力的 AI 自动化操作平台。

👉 划线高亮观点批注

深度分析：David Vellante 和 David Floyer[1]

市场正试图为一场尚未完全内化的转型定价。它看到 Nvidia Corp. 的市值达到五千亿美元级别，便认为其估值过高，难以继续增长。

我们认为这是一种错误的思维模型，它低估了市场潜力。尽管正在进行的转变类似于从 RISC 到 x86 的过渡，但其本质要深刻得多。虽然 Intel Corp. 的 x86 架构成为了事实上的标准，但它主要随着常规服务器和个人电脑的更新周期而增长。在我们看来，推动 Nvidia 的动力要强大得多，且被许多人低估了。

Nvidia 正在通过成为企业计算的默认基底来创建一个新平台，而该平台会将其他一切纳入其生态系统（西方企业级视角应该是已成定局了，东方还不清楚）。在这个周期中，驱动增长的单元不再是 PC 或服务器，而是人工智能工厂——这是一种机架级系统，通过 Token（词元）、推理和自动化工作流，将电力、数据、计算和软件转化为智能。

我们的核心前提是，Nvidia 正在组装一个新的企业平台，它将对商业的各个方面产生影响，而不仅仅是信息技术部门。凭借其图形处理器和完整的计算堆栈，Nvidia 不仅让工作负载运行得更快，还赋能了新的工作方式，但其故事远不止于此。在我们的设想中，AI 工厂将吸收企业在计算、存储、数据库、恢复、安全、管理和兼容性方面历史性提供的功能。但它将应用这些能力去完成比我们以往任何时候用计算所能做的多得多的事情。

具体而言，AI 工厂的产出将成为新商业模式和收入来源的要素，从而彻底改变组织的运作方式。组织结构将趋于扁平化，数据和流程的孤岛将被拆解并重构，以推动前所未有的生产力水平。

现实的细微差别在于，企业今天运行的并不是干净、确定性的系统；它们运行的是由人类语义推理维系在一起的碎片化应用资产（我觉得未来很长一段时间，人类语义构建的业务系统仍然是核心的模块。只不过底层一些达成共识的组件和业务逻辑可能会被 AI 的 Agentic 工作流所取代。但是上层的业务流将不会一蹴而就的完全由 Agent 接管）。人类负责协调异常情况、进行边缘案例审批，并且通常需要进行手动恢复。AI 工厂的承诺不仅是孤立的更快计算；它还在于自动化那些目前需要人工去解释、协调和合理化不一致性的边缘案例。其结果将使组织能够以更少的人力进行扩展。

为了支持这一转型，计算基础设施的底层正在发生变化。机架现在成为了计算机（类似于大型机的系统集成成为新的计算范式载体）。这不仅仅是 Nvidia 的营销——虽然确实如此——但它也意义深远。Nvidia 的年度节奏包括 CUDA、DGX、Mellanox、Grace/Hopper、Spectrum-X、Blackwell、Mission Control、Rubin 以及最终的 Feynman，深化了在存储和上下文方面的工作。对我们来说，这看起来像是对一个完整的、企业级操作平台的蓄意构建。

至关重要的是，我们认为 x86 不会消失——它会被吸收——而新的操作模型利用了数十年来建立的受信任系统。换句话说，我们看到了一种架构采用路径，即在 AI 工厂围绕它们增长的同时，保留确定性工作负载——降低迁移摩擦，从人类的推理痕迹中学习，将智能货币化，同时新平台通过能力和卓越的经济性赢得忠诚度（即锁定效应）。

在此次深度分析中，我们基于 theCUBE Research 多年的工作（由 George Gilbert 推动），梳理了计算、网络、存储、数据库、软件、恢复、安全和运营方面即将发生的深刻变化。我们分享了为什么这次转型将比以往的平台转移更为重要，因为前沿模型在平台构建的同时成为了迁移工具。我们的目标是用一张连贯的地图来取代市场困惑，描述已经存在的事物、缺失的事物，以及企业和供应商无论是否愿意都必须适应的地方——以及它将如何改变地球上每个组织的技术模型、操作模型和商业模型。

半导体股票显示出脱节：Nvidia 基本面与市场走势

下图显示了这场半导体繁荣中正在发生的奇怪动态。年初至今，Intel 上涨了近 200%，Advanced Micro Devices Inc. 上涨了 91%（截至周五盘前），而 Nvidia 尽管在基本面上是明显的异类，却仅上涨了约 13%。下表强化了这种不和谐。Nvidia 的收入预计将远超同行，增长更快，产生的自由现金流也远超同行，但其远期市盈率却低于除 Qualcomm Inc. 之外的所有列出公司。市场的典型解释是 Nvidia 太大了，已经涨过了头，而且其护城河正受到包括 AMD 和 Intel 在内的竞争对手，以及 Google LLC 的张量处理单元（TPU）和 Amazon Web Services Inc. 的 Trainium 等超大规模云厂商芯片，以及 Broadcom Inc. 等相邻厂商的破坏。（天之道损有余而补不足）

我们的观点是这种逻辑是有缺陷的。我们认为市场正在计入一个并未在市场中表现出来的份额流失故事。Nvidia 的体量优势，结合其生态系统和安装基数，是其飞轮优势。它实现了更快的再投资、更强的生态系统亲和力，以及更好地从供应链获取公司所需资源以保持其年度创新节奏。这就是核心优势，也是为什么我们认为 Nvidia 可以在加速计算领域保持份额，甚至可能获得份额，尽管这听起来有悖常理。

关键要点：

市场怀疑 Nvidia 能否保持领先地位，并正在奖励替代方案——即使 Nvidia 在规模、增长和现金生成方面仍然是领先者和基本面上的异类，市场仍在寻找新的机会来源。（这可能是A国供应链生产的安全考虑）
Nvidia 较低的远期市盈率（相对于同行组）表明市场仍在对其持久性打折扣，这主要归因于竞争蚕食其护城河以及“太大而无法增长”的逻辑。
我们认为 Nvidia 85% 以上的份额可以保持并成为一种持久的优势，因为它为速度提供了资金，支持年度改进周期，并使 Nvidia 处于比竞争对手更强的地位。

底线：市场行为正在发出混合信号——动量正在追逐挑战者，而基本面仍然指向 Nvidia 是该组中定位最好的公司。市场通常会以超额倍数奖励领导者，但在这种情况下，它却反其道而行之。我们的观点是，Nvidia 以体量驱动的飞轮和年度节奏是衡量下一阶段周期的正确方式，除非 Nvidia 在执行上犯错，否则故事将回归正常的估值动态。

核心前提：Nvidia 重建企业平台层

下图分三步确立了我们的核心论点。首先，Token 经济学成为价值单位——通过在受功率限制的 AI 工厂内生成 Token 的每瓦成本来衡量。在我们看来，这就是为什么 Token 经济学（Tokenomics） 如此重要。如果运营商拥有基本固定的功率包络，那么在相同的功率限制内实现年度阶梯式改进，直接转化为更好的经济效益。换句话说，我无法增加更多功率，所以如果我能在相同的功率下获得数量级的性能提升，这意味着我更有利可图。

其次，前沿模型 成为迁移引擎。它们不仅仅是生成 Token。它们还针对现有系统进行解释、重写和操作。随着模型的改进，它们将更多的工作负载拉入 Token 化工作流中，并推动对 Token 的更多需求。那个飞轮转动得非常快。

第三，x86 堆栈不会被拆除——它会被吸收。大多数企业数据和应用程序仍然位于 x86 环境中，我们认为制胜策略是将那个确定性的世界带入 GPU/CPU/DPU 结构中，并在原地进行现代化改造。在幻灯片上，我们称之为 x86 吸收，我们认为迁移是能力优先，然后是经济性，再是平台亲和力，从而锁定一个持续的创新和支出周期。我们在之前的深度分析中分析过的 Intel-Nvidia 交易[2] 对 Nvidia（获得 x86 安装基数）、Intel（现金+AI 领域的相关性+代工客户）和客户（更平滑地过渡到未来）来说是三赢。

几点值得强调：

前沿模型推动需求，因为每一次改进都会增加 Token 数量并扩大企业可以完成的任务集；
Token 经济学至关重要，因为功率是固定的——在相同的功率包络内实现数量级的收益转化为运营商的真金白银；
x86 吸收是桥梁，而 Intel-Nvidia 的联合倡议将 Intel 的 x86 引入平台（就像今天 Arm CPU 出现的方式一样）是一个关键推动因素。它允许将 x86 机架与数据处理单元和网络连接到同一个结构中，以便遗留工作负载可以向前推进、在原地进行现代化改造，并逐步被吸收进加速堆栈中。

底线：我们认为 Intel-Nvidia 的联合行动是一个关键且务实的步骤，目前被低估了。这就是加速平台如何触及企业计算的“混乱中间地带”，即应用程序和数据仍然存在的地方。

当今的企业软件：“确定性神话”

我们经常强调确定性软件的重要性，但有一个我们需要解决的潜规则。企业谈论起来好像它们运行的是确定性系统——企业资源规划（ERP）、客户关系管理（CRM）、财务、人力资源、安全、分析、制造——但它们真正运行的是一个拥有不同数据模型、不同定义和不同版本真理的应用程序丛林，这些真理因部门而异。将这一切整合在一起的粘合剂是人类推理。领域专家进行解释。他们进行协调。他们处理异常、进行审批、解释含义、在电子表格中进行清理，并在走廊谈话中调和差异。那种人类语义判断是富有成效的，同时也是概率性的——你并不总是能两次得到相同的答案，因为系统实际上是工具加上解释的混合体。

这是巨大的生产力解锁点。

在幻灯片的右侧，结果是我们大家在实践中都认识到的——延迟的真理、冲突的语义、高昂的协调成本以及当事情出错时的手动恢复。数据仓库有帮助，但它仍然是一种有时滞的机制。它创建了一个历史回顾版本的真理，并且它不能消除语义漂移。商业智能行业围绕指标和维度创造了一个 500 亿美元的业务，但即使是最好的指标目录也不能神奇地在企业内部创造实时共享的语义。

我们经常强调的核心点是，将大语言模型插入向量数据库听起来很酷，但它并不能自动交付企业级成果；
当确定性软件和概率系统混合在一起时，企业价值变得更加具体——这样模型可以推理和创造，而环境可以治理和引导；
新平台必须自动化人们在接缝处所做的工作——调和定义、解决冲突，并将“部落知识”转化为可以在实时运行的共享语义。

其含义简单但不舒服。确定性企业一直是供应商兜售、客户购买的故事，因为这是他们目前拥有的最好的东西。下一个平台浪潮必须缩减维持这个故事的人工推理工作，并用可以在整个企业内执行和信任的实时语义取而代之。

经济拐点：从 CPU 更新周期到 Token 工厂

下图揭示了我们认为正在进行的经济核心转变。AI 基础设施正在将计算从后台 IT 成本中心转变为 Token、推理和自动化的直接生产系统。在左侧，图表显示 Nvidia 的收入从 2024 财年（609 亿美元）急剧扩大到 2025 财年（1305 亿美元）再到 2026 财年（2159 亿美元）。正如我们在第一张幻灯片中所说，市场共识估计 2027 年将远超 3500 亿美元，我们认为该数字可能超过 3700 亿美元，这是所示市盈率的一个关键假设。

在右侧，我们强调了另外两个想法：1）一个工作假设，即 AI 工厂资本池将是旧 CPU 更新周期的 >10 倍，以及 2）一个观点，即 Nvidia 65% 的收入增长是由数据中心 AI 驱动的，并且实际上将在 2027 财年加速。幻灯片中指出的一个关键细微差别是，x86 收入仍然可以在 AI 服务器内增长，但以 CPU 为中心的企业架构将从属于 AI 工厂架构。我们还认为 Nvidia 将拥有针对新时代优化的出色 CPU，并且比传统 CPU 架构更高效。（这可能是当下Intel股价反常识倒涨的底层原因，资本正加大对Intel的多核架构的压强投入）

这扩大市场的实际原因是所重建内容的范围。上一个时代主要由更新周期驱动。在这次 AI 浪潮中，我们谈论的是一个操作模型替换，包括集成、安全、数据库、恢复、分析和自动化移动到一个新框架。这就是为什么总可用市场看起来一点也不像过去三十年由摩尔定律驱动的更新周期。

我们注意到一个关于这对公司经济影响的关键点。我们已经看到新公司从前沿模型开始，看起来根本不同——每名员工的收入是传统公司的约 10 倍。这不是一个小小的生产力提升。这是组织形态的改变，一个小团队可以驱动非常大的收入，因为“粘合工作”（数据协调、语义调和、系统不互通、协调开销）在机器速度下成为了一个已解决的问题。

此幻灯片的关键点：

AI 工厂将计算拉入业务线——Token 成为产出单位，经济效益附着在这些 Token 能做的事情上；
早期的 AI 原生公司正在显示出 数量级 的每名员工收入变化，这成为了遗留公司被迫追赶的基准；
Nvidia 的增长率受到的供应限制多于需求限制——在我们看来，超过 70% 的增长讨论是在供应受限的现实中进行的，这在如此规模下是不寻常的。

底线：这就是为什么我们不断回到企业将使智能货币化的想法。当 Token 工厂从实验性基础设施转向生产系统时，支出讨论从更新转向为收入建立产能。随着供应限制随时间缓解，增长率和下游经营杠杆的移动速度可能比大多数人目前建模的要快。这就是我们在讨论 Jensen 的 “帕累托曲线”商业模型幻灯片[3] 时所写的内容。

历史平行：RISC→x86→AI 工厂

下图使用之前的平台历史进行近似，在某种程度上与今天相呼应。在 20 世纪 90 年代，企业市场由高性能 Unix 孤岛的专有 RISC 系统定义。但 PC 体量创造了规模经济，使得 x86 能够主导企业市场。在 2000 年代到 2010 年代，x86 加上虚拟化通过成为 CPU、虚拟机、存储和应用程序的通用企业平台而获胜。我们的信念是，对于 2020 年代到 2030 年代，AI 工厂以类似的方式获胜——不仅仅是凭借更快的芯片，而是通过成为推理、数据和运营的体量平台，Token 经济学将更多确定性工作负载拉入实时推理系统中。

在我们看来，80 年代末/90 年代初的 RISC 与 x86 之战仍然是最接近的平台平行——尽管今天的转型更复杂且移动速度更快。那时，每个主要供应商（Sun Microsystems Inc.、Digital Equipment Corp.、IBM Corp.、Hewlett-Packard Co.、Data General 等）都兜售自己的 RISC 变体，而 MIPS 是另一个指令集竞争者，试图在其硅片上标准化。x86 和 Intel 最终在经济性和体量上获胜——PC 市场创造了规模，而 Wintel 成为了后来爬入数据中心的标准。那种攀升花费了数年时间，因为 x86 证明了它可以处理越来越重的工作负载。

现在的赌注是 AI 工厂转型进行得更快。Token 的原始力量——通过前沿模型交付的推理和智能——成为了迁移燃料。不仅仅是企业转移计算；而是模型帮助解释、重写和操作遗留系统，同时平台正在构建中。这就是为什么我们认为第二次转型被压缩了——“新”正在创造工具，将“旧”向前拉动。

x86 花了近十年时间才在堆栈中向上移动到更高价值的工作负载；
在我们看来，AI 工厂仍然需要大约十年时间才能发挥作用，但转型的大部分发生在头五年，因为 Token 和推理在平台形成的同时加速了采用压力和迁移工具。

底线：RISC 到 x86 的转型是由体量经济学和标准化驱动的。AI 工厂转型首先由能力驱动（这里尤指模型能力和 Agent 的框架能力），然后是经济性，再是平台锁定——而且变化率更快，因为前沿模型在平台形成时帮助移动工作负载。

Nvidia 从显卡供应商到平台架构师的演进

下一张幻灯片捕捉到了 Nvidia 正在构建一个平台，而不是一条芯片线的想法。序列从作为软件护城河的 CUDA 开始，然后是作为集成系统的 DGX，再是 Mellanox 作为结构所有权。从那里，它将堆栈向上和向外拉向与 Arm 和 Grace/Hopper 的 CPU 集成、带有 Spectrum-X 的 AI 以太网、带有 Blackwell/NIM 的机架级推理、带有 Mission Control 的操作控制，以及现在带有 Vera Rubin 加上 LPX 和 STX 存储架构的下一波浪潮。此外，还有向下一代 Feynman 的年度节奏，以及进入物理 AI 与 Omniverse 的新领域。信息是 Nvidia 正在组装替换企业架构所需的完整堆栈，硬件、软件和库通过极致的协同设计捆绑在一起。

这种产品组合的扩展及其构建速度令人叹为观止，特别是因为它是蓄意的。每一层都旨在消除瓶颈并保持工厂作为一个系统运行——数十万个 GPU 作为一台机器运行。早期的重点是效率，具有更好的利用率、更低的 Token 生成延迟，以及在不因网络或存储限制而崩溃的情况下向外扩展的能力。随着平台获得更深的功能，它开始改变公司利用该系统可以做的事情，从后端加速转向可以驱动企业如何运行和如何增长收入的东西。

我们认为市场仍然低估了 Nvidia 的移动速度，以及为什么这种步伐难以匹配。该平台正在其生态系统中复合价值。每年增加新的能力，堆栈变得更加完整。

CUDA 和兼容软件保持安装基数当前，并降低了升级摩擦；
Mellanox 加上 Spectrum-X 使网络成为资产，而不是税收——在利用率不足的环境中，网络很快就能收回成本；
Mission Control 和系统方法专注于操作工厂，而不仅仅是购买组件；
LPX 和 STX 存储工作意味着低延迟推理和数据移动现在是一等公民。

底线是，这不仅仅是一个供应商通过不同的价格点增加其产品的粒度。这是一个在众目睽睽之下一步步构建的架构。随着企业从通用计算转向 Token 生产，赢家将是那些能够端到端运行、吸收现有系统并保持年度节奏改进的堆栈。

机架级计算成为新单位

下图表达了核心架构转变，即系统不再是服务器或刀片。计算单位成为机架级结构，旨在交付智能。左侧是 GB200 / Rubin NVL 机架——一个紧密耦合的 NVLink 域，具有 72 个 GPU 和 36 个 CPU。右侧是将该机架转化为 AI 工厂组件的功能块，包括用于推理和代理的前沿模型、用于调度和恢复的 Mission Control、用于向外扩展的 Spectrum-X / InfiniBand、用于存储和安全卸载的 BlueField DPU、用于 KV 缓存和数据层的上下文存储，以及作为实时真理基底的数据库。重点是机架被设计为一个系统，而不是零件的集合。

我们认为这很重要，因为 Nvidia 正在定义什么作为单一系统被购买和部署，而不是让客户去组装服务器（这不就是80年代的大型机思路么？），然后连接网络，然后连接存储，然后找出内存和数据移动瓶颈存在的地方。机架将这些变量拉入设计中以管理延迟、内存、数据移动，并最终实现效率，这驱动了每瓦 Token 数，并通过极致的协同设计保持系统元素平衡。

机架是一个全堆栈产品——GPU、CPU、DPU、内存、网络、存储、冷却、软件和运营——针对 Token 生产而不是通用计算进行了调整；
KV 缓存成为高阶层，因为一旦模型进入代理工作流，上下文和内存移动就会主导用户体验和吞吐量；
“吸收”是转型机制——x86 不会消失；它被拉入机架级架构中，以便现有数据和应用程序可以在没有“推倒重来”中断的情况下移动。

底线是，这就是 Nvidia 如何将加速计算转化为平台，而不是一套自己动手做的组件。机架成为购买单位、操作单位和优化目标。随着这在数据中心内、外和跨数据中心扩展，我们预计开发人员会跟随。最好的软件和最好的构建者将迁移到在固定功率包络内交付最低每 Token 成本的系统。

x86 如何被吸收

下一张幻灯片是桥梁。左侧是遗留的 x86 资产——ERP/CRM 事务应用程序、SQL 数据库、虚拟机、SAN/DR、合规控制系统。中间是吸收路径——NVLink Fusion、“带有 NVLink 的 Intel + Nvidia x86”，以及用于放置和策略的 AI 控制平面。右侧是 AI 工厂平台——GPU/CPU/DPU 机架级结构、实时真理数据库加上上下文，以及跨旧系统和新系统操作的代理。

我们的观点是，从当今碎片化的企业堆栈到干净的 AI 工厂未来，没有合理的“推倒重来”路径。迁移必须是分阶段的，由业务流程进行。在实践中，其工作方式是选择一个领域（库存是一个很好的例子），在触及它的系统（采购、仓库、计划、财务）上应用前沿模型和代理，然后做解决这些系统之间语义的艰苦工作。那不是魔法。那是经验丰富的人在接缝处工作，逐渐将确定性的 x86 世界拉入与新平台的协同操作中。

这就是 Intel+Nvidia 交易变得更相关的地方。遗留资产不会蒸发——它被拉入机架级结构中，以便 CPU、GPU、DPU 和网络作为一个系统运行。旧的 CPU 与 GPU 比率对话是一个很好的例子，说明了为什么市场会被头条新闻所左右。该比率曾被谈论为 8:1，然后是 4:1，Lisa Su 建议它可以达到 2:1。

我们的看法是，这些比率是未成熟利用率的快照。如果 14% 的 CPU 利用率被认为是好的（较低的利用率很常见），那么机会就是随着平台在管理整个系统利用率方面变得更好，将其驱动到 40% 以上。如果发生这种情况，CPU 需求很可能低于今天头条新闻比率所暗示的，并且它会落在中间的某个地方。

第二个因素是投资者心理。磁带正在将“Intel=CPU”和“AMD=CPU”视为明显的赢家。我们理解为什么这种叙事很有吸引力，但我们认为从长远来看，更重要的关注点是功能。在摩尔定律时代，Intel 从 PC 微处理器提供商变成了跨越全套平台功能的生态系统领导者——数据中心、网络、无线、I/O、存储、图形、安全，应有尽有。我们认为 AI 工厂平台正在做类似的事情，优势将赋予那些将功能组装成集成架构的公司，而不是那些孤立地销售一个组件的公司。

我们看到的迁移路径是 “架构吸收” ——在 AI 工厂层围绕它们增长的同时，保留确定性工作负载；
前沿模型帮助解决系统间的语义冲突——但人们仍然在流程由流程地进行繁重的工作，直到代理可以接管；
当利用率处于个位数时，CPU/GPU 比率头条新闻可能具有误导性——平台机会是将整个系统的利用率驱动到约 40%；
市场今天根据 CPU 叙事进行操作，而真实的故事是 平台功能 ——在我们看来，谁拥有集成架构才是最重要的。

底线是 x86 在一段时间内仍然是企业基底，但它将越来越多地生活在 AI 工厂架构内，而不是独立于它。这就是吸收桥梁的意义所在。它为企业提供了一种在不破坏一切的情况下进行现代化改造的方法，并将赢家定位在端到端平台功能周围。

x86 功能在 AI 工厂内被重建

我们的下一张幻灯片展示了我们如何从通用计算转向加速计算。路径经过真正重要的事情——换句话说，功能。x86 赢得了这一天，并成为企业计算、存储、数据库、恢复、安全和管理的控制点。我们的观点是，AI 工厂必须以不同的方式重新实现这些功能，使用跨 GPU/CPU/DPU 的混合执行模型，而不是将 CPU 视为唯一的控制点。

核心思想是 x86 成为了企业堆栈的控制平面。它编排存储、运行数据库、协调恢复，并支撑安全和管理——特别是在任务关键型环境中。这就是为什么下方的幻灯片明确调用了每个功能并将其映射到它在 AI 工厂中变成的样子——即跨 GPU/CPU/DPU 的混合执行、集成上下文内存加上并行数据层、实时语义真理基底、包括语义状态重建的恢复、跨代码/数据/应用程序编程接口的安全，以及带有自动化操作的 AI 工厂控制平面。

执行移动到混合 GPU/CPU/DPU 执行；
存储成为集成上下文内存加上并行数据层；
数据库向实时语义真理基底移动；
恢复向语义状态重建与重启移动；
安全在代码、数据和 API 之间变得持续；
管理成为 AI 工厂控制平面加上自动化操作。

其含义是，这是围绕新瓶颈和新物理学对企业平台层的重建——网络速度超过了传统 x86 总线所能管理的范围，存储和数据库行为必须变得更加并行和更加语义化，安全必须跨越一切，因为对手也会使用前沿模型和代理。我们认为这就是为什么 AI 工厂成为业务的前线。一旦公司在其上运行收入工作流，弹性和操作控制就变得至关重要。

网络成为系统结构

Mellanox 属于企业计算中战略收购的总统山。VMware-EMC（虚拟化时代）、Amazon-Annapurna、IBM-PwC（服务支点）、IBM-Red Hat（开源）、Oracle-Sun（硬件+软件集成）。我们的观点是 Mellanox 与所有这些相提并论，因为它不仅仅是一个邻接游戏或 TAM 扩展举措。它是 Nvidia 使 AI 大规模工作并创造新计算范式所需的缺失部分。

Nvidia 为 Mellanox 支付了约 70 亿美元。今天，网络是核心价值链组件——该公司的网络业务在一家市值约 5 万亿美元的公司内以约 400 亿至 450 亿美元的年化运行率运行。换句话说，没有网络，就没有“我们今天所知的 Nvidia”。关键洞察是 AI 工厂无法在连接到服务器的传统网络方法上扩展。它们需要一种新的网络模型，成为分布式内存、推理、存储和恢复的执行结构。

下图展示了 Nvidia 如何将网络转化为系统结构——然后扩展它：

|768x432

NVLink 向上扩展——机架级域，其中系统表现得像一台机器；
InfiniBand/Quantum 向外扩展——大型分布式系统的集群骨干；
Spectrum-X AI 以太网——专为 AI 调整的专用以太网，支持向外扩展和跨扩展；
ConnectX+BlueField——NIC+DPU 作为控制和卸载层，将存储和安全拉近结构。

这就是为什么 Mellanox 成为使 AI 工厂作为平台可行的基础。一旦你连接了数十万个 GPU 并将它们视为一个单元，结构就决定了延迟、可恢复性和利用率。Nvidia 一直在这里投入巨资，涵盖硬件和软件——你可以在围绕扩展、延迟减少和操作恢复的持续改进流中感受到效果。

关键点是规模。当你连接数十万个 GPU 并试图将它们作为单一单元运行时，网络就是基础。这就是 Nvidia 如何保持降低延迟、提高可恢复性并维持整个堆栈速度的方法。这里有不断的迭代——软件和能力方面微小但有意义的改进不断出现，它们加速了价值。

底线：没有结构，就没有大规模的 AI 工厂。Mellanox 为 Nvidia 提供了网络原语，将大量 GPU 转化为一个连贯的系统，而 Spectrum-X 加上 BlueField 将这种优势扩展到 AI 工厂实际部署的以太网密集型企业环境中。

存储成为上下文内存

下一张幻灯片用图片描述了存储转型。左侧是经典的 x86 存储世界——SAN/NAS、对象存储、备份层——具有独立的系统和独立的团队以及大量的“复制+等待”。右侧是新的 AI 上下文层：GPU 邻近上下文内存、KV 缓存/代理内存、并行向量+流数据路径，以及 DPU 策略/安全/完整性，所有这些都针对 pod 间的低延迟共享上下文进行了优化。

|768x432

关键点是，曾经是 Tier 1 存储（想想 EMC Symmetrix）的东西正在被推下层级。存储堆栈正在围绕对计算的邻近性以及保存和重用上下文的需求进行重新定义。在这种模型中，存储不是你连接到服务器的盒子。它是一个共享的高速上下文基础设施，保持 AI 工厂平衡。

我们认为 Nvidia 在这里的消息实际上是对生态系统的授权。不是以供应商傲慢的方式——而是以物理和经济学的方式。如果系统要以 AI 工厂速度运行，通过 CPU 路由数据移动和 I/O 编排的旧方法就会成为瓶颈。新架构规范化了 RDMA 和直接通信等事物，因此系统不必通过传统的阻塞点。

这就是为什么你会看到 VAST、DDN、WEKA 和其他高性能计算原生玩家在对话中间处于有利位置——以及为什么 Dell Technologies Inc. 等现有厂商正在采取 Project Lightning 等举措。市场正在将它们推向新要求：低延迟+并行性+烘焙到数据路径中的策略。它还给 x86 时代接口（PCIe 思考）带来了压力，因为结构接管了更多的移动和协调。

关键点：
- AI 工厂时代的存储表现得像上下文内存——它是围绕 KV 缓存、代理内存和 pod 间的低延迟共享设计的；
- RDMA 和直接路径成为常态，而不是例外——因为“通过” CPU/GPU 处理一切无法扩展；
- 生态系统正被拉入 Nvidia 的参考模型：如果合作伙伴想要相关性，就不能忽视新层级。

底线：存储堆栈正被重新定位为 AI 工厂上下文和数据平面的一部分，而不是外部附加盒子。这种转变正在创造新机会并迫使快速适应；将经典 Tier 1 进一步推向 HBM、SRAM、DRAM、低功耗内存和 KV 缓存之下的层级。

数据平台成为实时真理层

下一张幻灯片强调了“不要忘记数据”的信息。Nvidia 的五层蛋糕很引人注目，但它缺少数据组件。没有数据层，企业就无法获得可靠的代理成果。现代数据堆栈——由 Snowflake Inc. 和 BigQuery 定义的仓库和湖仓时代——交付了更好的分析，但它主要交付了一个历史回顾版本的真理。企业实时运行。只要操作系统保持孤立，单一真理来源仍然是抱负，因为人类仍在调和部门间的语义。

我们认为所需要的改变是一个实时真理基底——一个智能系统——它位于记录系统和分析之上。它成为新 AI 软件堆栈中的高价值层。这就是企业数字孪生开始以人、地、资产和流程的实时表示形式变得实用的地方，代理可以在这些表示上进行推理并充满信心地采取行动。在这种观点中，数据库和数据平台不再是事务加上报告，而是成为一个实时协调层，将确定性正确性与代理所需的上下文混合在一起。

幻灯片上的几个元素值得注意：

事务仍然是入场券——确定性正确性仍然很重要；
向量、图和流进入核心——语义检索、关系/因果关系和持续更新；
策略与数据变得不可分割——权限和合规性生活在真理层中，而不是稍后才加上；
代理内存成为一等公民——状态和工具历史必须持久化，以便代理可以安全且重复地操作。

在前沿模型之下，价值来自连接模型与企业系统的 API、工具集和工作流的完整堆栈。智能系统是企业通过语义解析、合规性、安全性和代理开发将自身映射到该新平台的地方。这就是为什么我们认为这一层成为转型的核心——这是从“发生了什么”和“为什么发生”转向“接下来可能发生什么”和“我们现在应该做什么”并具有下一步行动姿态的唯一途径。

底线：企业无法仅从“LLM+向量数据库”获得可持续的代理价值。它通过构建一个实时真理层来实现，该层可以调和孤岛间的语义、维护持续状态、执行策略，并实时为人类和代理提供决策级上下文。

恢复成为语义重建

恢复是一个信号。当供应商进来向我们进行分析师简报时，暴露真实架构的最快方法是问：“请带我走一遍当事情出错时你究竟如何恢复？”在 AI 工厂时代，“重启系统”不是直接的恢复序列。平台必须恢复状态——不仅仅是物理正常运行时间，还有最后有效的推理状态——并以一种让业务安全恢复的方式进行。

下图展示了为什么恢复现在跨越了过去被孤立处理的多个层。我们正在处理从机架宕机到代理在任务中途失败的故障。恢复能力必须是现有 x86 学科与 Intel-Nvidia 吸收路径带来的新控制和仪表化的结合。转变在于平台可以将恢复视为整个公司的系统问题，而不仅仅是一个应用程序内的数据库问题。

现在必须重新结合在一起的恢复关键元素——按顺序——是：

物理/机架状态——电源、冷却、网络、GPU 健康；
数据库状态——事务、血缘、时间排序；
索引+上下文状态——向量索引、KV 缓存、上下文内存；
代理状态——计划、工具调用、中间输出；
人类审批状态——权限、签字、升级路径。

重点是恢复现在必须同时保留操作状态和语义状态。如果平台无法回答“代理知道什么，它触及了什么，什么策略约束了它，什么状态可以安全恢复”，那么组织最终会回到原点——人类进行手动恢复和调和，伴随着延迟的真理和高昂的协调成本。

底线：在我们看来，恢复成为 AI 工厂平台定义的关键要求之一。它迫使堆栈被设计为一个完整系统——硬件、数据、上下文、代理和审批——因为这是在不可避免的故障发生时恢复信心并保持业务运行的唯一途径。

前沿模型成为迁移引擎

AI 工厂最重要的含义是前沿模型成为企业的新迁移引擎。它们将爬取代码库、数据库模式、API、工作流引擎、日志、工单、文档和人类程序，以推断业务实际上是如何运作的——而不是架构图声称它是如何运作的。

这是突破。几十年来，企业一直生活在一个应用程序丛林中，其中 ERP、CRM、财务、供应链、人力资源、安全、分析和行业特定系统各自携带自己对客户、产品、事务、审批、异常和真理的定义。集成层主要是人类。人们调和含义、解释异常、批准变通方法、追逐工单并从故障中恢复。AI 工厂论点通过将前沿模型置于这团混乱的中间并要求它们检查、映射、诊断、集成、操作并持续改进企业，从而改变了那个等式。

在我们看来，这就是为什么“迁移引擎”这个短语强大但不完整。是的，前沿模型将帮助将遗留系统迁移到 AI 工厂架构中。但迁移只是第一幕。一旦模型理解了代码、数据、工作流和人类程序，它就成为企业的语义操作层。

迁移引擎意味着一个有开始和结束的项目。语义操作层意味着一个持久的系统，它解释旧的确定性应用程序、协调新的概率代理、执行策略并持续改进业务。上方的幻灯片直接构架了这一点。前沿模型检查代码、模式、API、日志和工单；映射真实企业语义；诊断冲突和隐藏故障；集成遗留系统；操作带有策略和审计的代理；并通过持续重写和优化进行改进。

一些专家使用“企业神经系统”这个短语，这很吸引人，因为它捕捉到了生物学隐喻和在组织中移动的信号、感知异常、协调响应并从反馈中学习。但它夸大了市场目前的状况。企业还没有准备好信任前沿模型作为公司的神经系统。然而，它们已经准备好使用这些模型来发现语义、辅助迁移、自动化集成并在有界域内操作受治理的代理。

前沿模型作为迁移引擎开始，成熟为语义操作层，并随着时间的推移成为企业神经系统。

这种进展赋予了论点更多的可信度，并承认这将需要十年时间才能展开。它还承认了直接用例——现代化和迁移——同时指出了更大的架构转变。战略底线是 Nvidia 的 AI 工厂平台不仅仅是一个更快的计算基底。它是新企业控制平面的基础设施基础，前沿模型将碎片化的确定性系统转化为一个持续改进、语义连贯的操作环境。

AI 工厂中的安全与治理

下一张幻灯片关注一个在泡沫周期中往往被低估的点。具体而言，当智能变得可操作时，安全就成为了一个操作问题。我们直接从 Nir Zuk 的评论中听到了这一点，即当对手可以使用 AI 扩展时，人类过去用来清理的“最后 1%”不再可管理。在我们看来，这是 AI 时代治理的正确设置，因为攻击者的优势随着自动化而增长——无论是在企业外部还是内部。

我们的观点是治理必须生活在系统内部，而不是在一个单独的手动流程中。随着组织向代理工作流移动，黑客和内部人员造成损害的能力增加。这使得监控正在进行的更改成为一项核心能力。平台必须观察系统在进化时在做什么——例如，它在触及什么、它在更改什么、它在尝试什么，以及什么信号表明系统正在漂移到不安全状态。

安全表面扩大，因为系统变化更快——更多的动作、更多的工具调用、更多的状态更新、更多引入坏事的机会；
治理成为对更改的持续监控——捕捉风险增量、突出异常，并执行使系统安全操作的边界；
一个可能的操作现实是“模型运行模型”——一个模型管理日常操作，而治理检查正在进行的更改并标记可能出错的地方。

结论是 AI 工厂不能依赖昨天的安全假设。随着自动化扩展，治理成为操作系统的一部分——监控更改、约束动作，并在某些事情不可避免地出错时减少爆炸半径。

新云是分布式的、主权的且联邦的

云对话正在改变。在过去十年中，行业主要将云定义为将工作负载移动到超大规模平台、消耗弹性基础设施并让集中式服务处理规模的目的地。但在 AI 时代，我们认为该模型正在变形。AI 工厂将不仅仅生活在集中式公共云中。它们将作为跨越超大规模区域、企业数据中心、电信和区域设施、工业边缘位置、主权站点和国防或国家基础设施的分布式系统出现。

原因是 AI 将计算带到了数据、功率、延迟、策略和主权要求所在的地方。随着 AI 变得更深入地嵌入业务流程和国家基础设施中，组织将越来越需要具有全局学习的本地执行。这就是该幻灯片中代表的架构转变。

这种演进的核心是需要一个 联邦 AI 控制平面。在我们看来，这成为一个关键的抽象层，允许工作在不同的 AI 工厂节点间移动，同时保留策略、安全、可用性和数据控制。这不仅仅是带有新标签的混合云。这是一个分布式 AI 操作模型。

几种力量正在驱动这种转型：

主权不再仅仅是一个地缘政治问题。 政府显然希望对 AI 基础设施和数据拥有国家控制权。但受监管行业——金融服务、医疗保健、能源、国防、电信和关键基础设施——也希望对其 AI 堆栈拥有类似主权的控制权。
延迟和局部性。 依赖实时操作数据、工业系统、边缘设备或受监管记录的 AI 工作负载并不总是能将数据运回集中式云区域。
连续性和弹性需要分布式执行。 如果功率、网络访问或区域可用性在一个位置受到限制，系统必须能够转移工作、恢复状态并保持操作连续性。
数据移动必须变得更具选择性。 未来不是关于将所有数据移动到任何地方。而是关于移动正确的元数据、模型更新、嵌入、策略、小状态对象和恢复工件，以便分布式系统可以在本地操作的同时进行全局学习。
网络成为基础，但不足够。 高性能、安全网络是必不可少的。但架构还需要跨位置的编排、恢复、安全分区、策略执行、工作负载放置和生命周期管理。

这就是为什么单一云的概念变得不那么有用。新云是一个分布式结构。它结合了集中式规模与本地控制。它允许企业和政府将 AI 放置在它所属的地方——有时在超大规模云中，有时在本地，有时在边缘，有时在主权国家环境中——同时仍然参与更广泛的联邦智能系统。

关键点是 AI 工厂不会是单体的。它们将被联网。它们将跨多个控制域操作。它们将需要支持本地合规性和执行，而不牺牲全局优化。在我们看来，这是云的下一阶段，不是作为地点的云，而是作为联邦 AI 操作模型的云。

AI 经济学：资本支出、Token 成本和无需劳动力的扩展

AI 工厂的经济案例不仅仅是 GPU 或更新遗留 x86 基础设施。更深层的想法是，AI 取代了围绕碎片化应用程序、孤立数据和脆弱业务流程的人类协调层的一部分。这就是为什么经济学受到如此激烈的辩论。资本强度是巨大的，但生产力的阶梯式变化潜力也是如此。

我们认为未来几年将由一个困难但可能强大的权衡定义，企业将在 AI 基础设施、Token、平台和自动化上投入更多，但随着时间的推移，它们将减少在整个业务中调和、解释、批准、集成、监控、恢复和管理异常所需的劳动力。换句话说，企业将支出从人类粘合剂转移到机器介导的协调。

下图捕捉到了那种操作模型转变。在左侧，资本扩大。AI 工厂资本支出位于传统基础设施更新周期之上。这是支出的重大提升。它是构建制造、编排和操作化智能的系统所需的新资本层。这包括加速计算、网络、存储、软件、能源、冷却、数据管道和模型基础设施。

但幻灯片的右侧是业务影响显示的地方。今天，太多的企业工作是协调工作：

调和跨系统的冲突记录；
解释报告、日志、策略和异常；
批准跨应用程序边界的工作流；
事后集成数据和流程；
手动监控操作；
从中断、错误或合规性差距中恢复。

AI 语义层的承诺是，更多此类工作变得自动化、由 AI 介导或加速。并非所有工作都会消失。但人的角色发生了变化。人类劳动力从重复性协调转向判断、监督、异常管理和新价值创造。

这就是生产力论点发挥作用的地方。10 倍数字并不是要成为每个行业每家公司的精确预测。它是最佳 AI 原生或 AI 重构组织在三到五年内将瞄准的方向模型。较新的公司已经显示出比传统企业高得多的每名员工收入。问题在于 incumbents 能否利用 AI 以类似的方向弯曲自己的生产力曲线。

这就是为什么 AI 商业案例不能仅由近期基础设施成本来判断。回报曲线需要时间。在之前的分析中，我们模拟了一个漫长的交叉期[4]，因为行业必须在生产力红利完全回报之前吸收巨大的前期资本承诺。资本支出是立即感受到的。劳动力和收入利益来得更缓慢。

但一旦那种操作模型扎根，其影响可能是深远的。更好的服务、更快的执行、更低的单位成本和更智能的操作应该会增加需求并扩大收入能力。在这种情况下，公司可能能够在不增加员工人数的情况下使收入翻倍——在某些情况下，所需的人数远少于其遗留操作模型所需的人数。

关键点是 AI 工厂很昂贵，因为它们取代的不仅仅是服务器。它们取代了企业的物理协调结构。应用程序集成、操作计划、合规性、安全、恢复、分析和异常处理都变得越来越由 AI 介导。这就是迁移到该新平台背后的真正商业必要性。

在我们看来，赢家将不是那些仅仅在 AI 上投入最多的公司。它们将是那些将 AI 资本支出转化为新生产力架构的公司——在这种架构中，资本强度被更低的协调成本、更快的扩展和明显更高的每名员工收入所抵消。

Nvidia 的 AI 工厂路线图：从加速计算到 AI 原生企业架构

最后一个问题是 AI 工厂架构吸收 x86 时代企业主要功能需要多长时间。这就是下图中捕捉到的路线图。Nvidia 的平台只有在 AI 工厂不仅仅是训练和推理机器，而是企业计算的操作基础时，才会真正占据主导地位。

在我们看来，这种转型将花费近十年时间。它不会一蹴而就。它将作为一个序列展开，首先是计算，然后是网络结构，再是上下文存储，然后是 x86 集成，再是语义数据库、恢复，最终是统一操作。每个阶段都扩展了 AI 工厂可以从传统企业堆栈中吸收的内容。

早期阶段已经在进行中。机架级 GPU 系统正在将行业从作为计算单位的服务器转向作为计算单位的机架。Nvidia 的网络和 DPU 结构通过将更多的网络、存储和安全功能卸载到加速基础设施层来扩展该模型。这些是基础部分。它们今天在市场上，并将通过硬件和软件迭代继续改进。

下一层是上下文存储。传统存储是围绕文件、块、对象和数据库构建的。AI 系统需要不同的东西。具体而言，对嵌入、键值内存、代理状态、元数据、策略和企业上下文的低延迟访问。换句话说，存储从被动存储库演变为代理和 AI 工作流的主动内存层。

然后是关键的企业桥梁：x86 集成。这是迁移路径。企业无法推倒重来数十年的应用程序、数据库和流程逻辑。AI 工厂必须吸收并与 x86 资产互操作。这意味着兼容性、工作负载迁移、可观测性、安全、策略和操作连续性必须构建在 AI 结构中。没有那座桥梁，AI 工厂仍然是一个强大的新岛屿。有了它，迁移就会加速。

本世纪后半叶是架构变得更具变革性的地方。实时语义数据库成为代理和应用程序的真理层。这些系统将需要利用并行性、分布式资源和 AI 原生数据结构。数据库不再仅仅是记录系统，而是开始成为上下文、推理和行动系统。

语义恢复是另一个重要部分。传统恢复是关于恢复系统、数据和应用程序状态。AI 恢复必须走得更远。它必须支持推理工作流、代理决策、上下文窗口、策略、审批和任务状态的安全恢复。随着越来越多的业务流程变得由 AI 介导，恢复变得语义化，而不仅仅是事务性。

最终，架构需要一个统一的控制平面。该控制平面必须跨越超大规模云、企业数据中心、边缘位置和主权基础设施的工作负载、站点、策略、恢复、数据移动和执行环境。这就是 AI 工厂从计算架构转变为企业操作模型的地方。

投资路线图和时机

每个阶段都建立在前一个阶段之上。计算创造基础。结构连接并保护它。上下文存储喂养它。x86 集成打开迁移路径。语义数据库为代理提供实时真理层。恢复使 AI 工作流在操作上安全。统一控制平面将碎片转化为平台。

时机不是一夜之间。迁移可能会缓慢开始，因为企业是复杂的、厌恶风险的，并且在现有系统中投入巨大。但一旦 x86 集成层、上下文存储和语义数据库组件成熟，迁移率可能会大幅加速。可能的拐点窗口是 2020 年代末到 2030 年代初，届时 AI 原生架构开始看起来不那么实验性，而更像是企业操作的默认模型。

到 2035 年，尚未进行实质性迁移的公司可能会发现自己处于结构性劣势。它们的成本基础会更高。它们的协调劳动力会更重。它们的应用程序资产会更碎片化。它们自动化决策、智能恢复、治理分布式 AI 和在没有相应员工人数增长的情况下扩展收入的能力将受到限制。

这就是为什么该路线图如此重要。它重新构架了 Nvidia 超越 GPU 的机会。长期目标不仅仅是加速计算。它是企业计算本身向 AI 原生架构的迁移。在我们看来，这就是现在正在进行的平台之战。它超越了训练最大的模型，并依赖于生态系统来构建下一代企业管理的操作基础。

行动项：CXO 应将 AI 视为一种需要明确路线图的基本操作模型转型。直接任务是确定企业仍然由人类协调维系的地方——例如，调和数据、解释异常、批准工作流、集成系统、监控操作和从故障中恢复——并开始将该工作转移到 AI 介导的语义层中。这意味着有纪律地资助 AI 工厂、现代化应用程序和数据资产、构建跨云、本地、边缘和主权环境的联邦控制平面，并要求从 AI 资本投资到生产力、收入和弹性的清晰视线。结局是重新设计公司的运作方式，以便智能嵌入到平台的流程模型和业务财务模型中。

图片：theCUBE Research/ChatGPT

原文标题：Nvidia, AI factories and the transition to accelerated computing[5] ---【本文完】---

👇阅读原文，有问题试试和历史文章对话（欢迎点赞/收藏/转发）。

https://siliconangle.com/author/guestauthor/ ↩
https://thecuberesearch.com/292-breaking-analysis-intel-nvidia-the-baton-passes-to-the-cuda-era/ ↩
https://thecuberesearch.com/special-breaking-analysis-vera-rubin-and-the-token-factory-flywheel-nvidias-dgx-playbook-expands-from-compute-to-the-full-ai-factory/ ↩
https://thecuberesearch.com/297-breaking-analysis-ai-factories-face-a-long-payback-period-but-trillions-in-upside/ ↩
https://siliconangle.com/2026/05/10/nvidia-ai-factories-transition-accelerated-computing/ ↩

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-18，如有侵权请联系 cloudcommunity@tencent.com 删除

系统