

在NVIDIA GTC 2026大会期间,NVIDIA 首席科学家、GPU 架构师 Bill Dally与谷歌首席科学家、TPU 联合发起者、Gemini 联合技术负责人、大规模机器学习系统先驱 Jeff Dean,展开了一场 60 分钟的重磅巅峰对话。双方围绕 AI 硬件创新、系统规模化、算法演进三大核心,深度探讨支撑 2026–2030 年智能体系统、超低时延推理与高效能扩展的关键路径,共同勾勒下一代 AI 的技术蓝图。
过去一年,大模型在可验证奖励任务上实现跨越式进步。Jeff Dean 指出,Gemini 已在国际数学奥林匹克竞赛(IMO)、国际大学生程序设计竞赛(ICPC)斩获金牌,远超三四年前仅能解答初中数学题的水平。

更具里程碑意义的是自主智能体工作流的成熟:模型可独立执行耗时数小时甚至数天的复杂任务,自主纠错、迭代推进,无需人类持续监督。这一转变让 AI 从 “被动响应” 走向 “长期自主运行”,成为下一代 AI 系统的核心形态。
智能体规模化的核心瓶颈是推理时延,行业目标从每秒数百 token 迈向万级甚至十万级 token。Bill Dally 表示,NVIDIA 正从芯片内外通信两方面突破时延极限:

片内通信:通过静态调度消除路由、排队与仲裁开销,实现芯片内 30 纳秒全域通信,时延从数百纳秒大幅降低;
片外通信:适度下调带宽,简化信号处理与前向纠错,将片间路由时延压至 50 纳秒以内,目标实现单用户每秒 1 万–2 万 token 的大模型推理。
Jeff Dean 提出,AI 已接近自主迭代下一代模型的阶段:给定 “优化模型” 的自然语言指令,智能体可自主开展数十组实验、筛选方向、迭代优化,替代传统神经架构搜索(NAS)中人工定义搜索空间的流程。
这种自然语言驱动的元学习,将大幅提升科研效率,形成 “顶尖研究者 + 超强智能体” 的协作模式,加速模型架构、优化器、激活函数等核心模块的自主升级。
AI 硬件研发周期长达 2 年、服役数年,需精准预判行业趋势。Bill Dally 透露,NVIDIA 通过自研 NeMo 大模型、Cosmos 世界模型、GR00T 机器人基础模型前瞻方向,并从三方面实现硬件 “未来 - proof”:
-优化数值表示与片上数据移动,适配所有模型;
-针对模型架构变化(如注意力机制迭代),灵活配比算力、内存带宽、通信资源;
-未来将推出多 SKU 产品,对冲模型架构迭代风险。
针对 “数据枯竭” 的行业担忧,两位科学家达成共识:
-Chinchilla scaling 定律仅适用于训练最优,推理性能需重新权衡;
-未被利用的视频、音频、机器人、自动驾驶真实数据储量极大;
-合成数据、数据增强、蒸馏、dropout等技术,可在不新增真实数据的前提下,用更多算力提升模型精度,避免过拟合。
Jeff Dean 进一步提出,未来训练将借鉴 AlphaGo,让模型在环境中主动交互、自主选择学习数据,而非被动投喂互联网数据,大幅提升学习效率。
数据中心超 90% 算力用于推理,训练与推理硬件需求正快速分化:
训练:需保留全部激活值用于反向传播,对内存容量需求极高;
推理:激活值即用即弃,Prefill 阶段偏训练特性(高算力),Decode 阶段极度依赖内存带宽与时延。
Bill Dally 预测,未来硬件将分为三类:训练 + Prefill 专用、注意力专用、Decode 专用,甚至进一步细分注意力 Decode 与前馈 Decode 硬件,实现全流程最优能效。
面对原生注意力二次方复杂度、百万级上下文窗口的局限,Jeff Dean 提出分层注意力 + 检索方案:通过轻量化检索从万亿级数据中筛选核心信息,再纳入上下文窗口,让模型 “仿佛” 能处理万亿 token,突破物理窗口限制。
同时,大参数稀疏模型成为趋势,仅激活小部分参数运行,如何高效利用稀疏性、保持计算规整性,是硬件与算法协同的核心课题。
双方均深度布局AI 驱动芯片设计,实现生产力量级提升:
谷歌:AlphaChip 助力 TPU 多代产品的布局布线,效率与质量双优;
NVIDIA:NVCell 通过强化学习,将 2500–3000 单元标准库移植从 80 人月压缩至单 GPU 一夜完成,性能超越人工设计;PrefixRL 优化进位前瞻链,较传统设计优 20%–30%;Chip NeMo、Bug NeMo 大模型赋能 GPU 设计答疑、bug 归因与验证。
尽管端到端 “自然语言指令生成 GPU” 仍遥远,但智能体正逐步压缩架构探索到流片的周期,尤其是设计验证这一核心瓶颈。
多智能体协同的核心挑战:
TPU 的 2D/3D torus 直连网络与 NVIDIA 的高基数路由器交换网络,各有优劣:
谈及 AI 对人类的积极影响,两位科学家最看好教育与医疗:
-个性化教育:AI tutor 适配每个人的学习方式,将教育效果提升 1–2 个标准差,如同当年计算器解放计算,让教育聚焦高阶思维;
-个性化健康:整合心率、基因、日常行为数据,AI 健康教练实时干预生活方式,辅助临床决策,破解医疗数据利用率低、个性化不足的痛点。
Bill Dally 与 Jeff Dean 分别回顾 NVIDIA、谷歌从小团队到数万人企业的历程:规模扩张带来 bureaucracy,但也赋予改变世界的资源。核心是保留初创团队的创新氛围,用技术与组织平衡,让 AI 创新持续高速推进。
这场 GTC 2026 巅峰对话清晰勾勒出 2026–2030 年 AI 图景:硬件向光速与近存计算突破,算法向自主智能体与分层检索演进,应用向教育、医疗、科学发现深度渗透,硬件、算法、智能体的深度协同,将推动 AI 进入真正的自主智能时代。