π0：机器人终于有了自己的 GPT 时刻

数据微光

发布于 2026-03-31 18:11:49

1080

2024 年 10 月，Physical Intelligence 发布了 π0。

这篇论文的核心观点只有一句话：像训练 GPT 一样训练机器人。

不是修辞。从架构到训练策略，π0 几乎一比一复制了大语言模型的成功路径。先在海量数据上预训练一个通用底座，再用高质量数据做后训练，让模型精准执行具体任务。

区别在于，GPT 输出文字，π0 输出动作。

上篇 PI 公司画像里提到的 11 篇研究进化链，π0 是第一个里程碑，也是整条链的地基。 后面的 π0.5、π*0.6、MEM，都是在 π0 定义的框架上叠加。今天把这个地基拆开看看。

为什么之前做不到

在 π0 之前，让机器人学会一个新任务的标准流程是：收集该任务的专用数据，训练一个专用模型，部署到一款专用硬件上。换个任务？重来。换个机器人？再来。

每个任务都是一座孤岛。

之前也有人试过做通用模型，OpenVLA（70 亿参数）和 Octo（9300 万参数）都是。但都有个硬伤：把机器人的动作当成离散 token 来预测。

简单说就是，模型每一步只能从「上、下、左、右」这种固定选项里挑一个。但机器人的手臂哪是这么动的？从 A 点到 B 点，位置、速度、力度的组合是连续的。硬塞进离散选项，精度肯定不够。

频率也跟不上。离散预测最多 10Hz，每秒 10 次决策。叠衣服、装鸡蛋这种活儿要 50Hz 的实时反馈。差了 5 倍，灵巧操作根本没戏。

π0 的三个关键设计

π0 的解法可以拆成三层。

第一层：站在视觉语言模型的肩膀上。

π0 的底座是 PaliGemma，Google 开源的一个 30 亿参数视觉语言模型。这意味着 π0 从出生就继承了互联网规模的知识：它认识杯子、知道桌子是什么、理解「把脏盘子放进洗碗机」这句话的含义。

这些能力不用从零学，直接继承。GPT-4 能写代码，靠的也是预训练阶段读过海量的代码和技术文档。同一个道理。

第二层：用 flow matching 生成连续动作。

这是 π0 和之前所有 VLA 模型最本质的区别，也是我读这篇论文时花时间最久的部分。

先说问题。前面提到，OpenVLA 这类模型把动作离散化成 token，精度和频率都不够。那直觉上的解法就是：别离散化了，直接输出连续动作。

怎么输出？2023 年有一篇叫 Diffusion Policy（扩散策略）的论文给出了一个思路：用扩散模型来生成动作。熟悉 AI 绘画的朋友应该对这个套路不陌生，Stable Diffusion 生成图像就是这么干的。从纯噪声开始，一步步去噪，最终得到一张清晰的图片。Diffusion Policy 把同样的过程搬到机器人身上：从随机噪声出发，逐步去噪，最终输出一段平滑的机器人动作轨迹。

这个方法确实能生成连续动作了，效果也不错。但有一个很实际的问题：太慢了。 扩散模型要做大约 100 步去噪才能得到一个干净的动作，而机器人需要每秒做几十次决策。算力撑不住。

π0 的选择是 flow matching，可以理解为扩散模型的高速公路版。

扩散模型的去噪过程是弯弯绕绕的，从噪声到数据走了一条曲折的路。Flow matching 换了个思路：直接学一条从噪声到动作的最短直线路径。数学上更优雅，实际效果是推理步数从 100 步压到 10 步，快了一个数量级。

打个比方：扩散模型像在迷宫里找出路，每一步都小心翼翼地试探；flow matching 像是有人直接在迷宫墙上画了一条线，你顺着走就行。

这让 π0 的控制频率达到了 50Hz，在 RTX 4090 上推理一次只要 73 毫秒。叠衣服时手指的微调、装鸡蛋时力度的拿捏，全靠这个速度撑着。

这里还有一个技术细节挺巧妙的。π0 的架构受到 Transfusion 的启发，在同一个 transformer 里同时做两件事：语言 token 用传统的交叉熵损失（和 GPT 一样），动作 token 用 flow matching 损失。一个模型，两种输出模式，各用各的训练方式。我读到这里的时候觉得这个设计真的很漂亮，把两个领域的东西缝合得很自然。

第三层：Action Expert 架构。