

如果具身智能领域会出现一个 OpenAI 级别的公司,我觉得 Physical Intelligence 是目前最接近的
10 亿美元融资,56 亿美元估值,18 个月发了 11 篇研究,已经有客户在用他们的模型做真实业务。但最让我在意的,不是这些数字,是创始团队
PI 的 CEO 卡罗尔·豪斯曼(Karol Hausman)在波兰一个小镇长大,小时候看《星球大战》迷上了机器人。后来去斯坦福读博,原本做的是传统机器人控制。
转折点是一场讲座。
博士期间,他听了谢尔盖·莱文(Sergey Levine)关于深度学习的演讲,当场决定换方向。从传统控制转向深度强化学习,相当于推翻自己之前所有的研究积累重新来过。
读完博士,豪斯曼加入了 Google Brain(后来并入 DeepMind),成为 Staff Research Scientist。在那里,他和两个人走得很近:一个是当年改变他方向的莱文,UC Berkeley 教授,深度强化学习在机器人领域的开创者;另一个是切尔西·芬恩(Chelsea Finn),斯坦福教授,以 MAML(模型无关元学习)闻名,核心贡献是让模型快速适应从没见过的新任务。
三个人在 Google 内部做了好几年机器人研究。但到了 2023 年下半年,他们开始频繁地在工作之外讨论一个问题:
大语言模型的 scaling law(缩放定律) 在语言领域已经成了,同样的思路能不能用在机器人上?
训练一个足够大的模型,让它同时理解视觉、语言和动作,直接输出机器人该怎么动。不用给每种机器人、每个任务单独编程。一个通用的机器人大脑。
2024 年 3 月,他们离开了 Google,成立了 Physical Intelligence。
除了豪斯曼、莱文、芬恩三个学术大佬,PI 的联合创始人还有四个人:
四个学者加三个工程/商业人才。学术能力拉满的同时,商业化能力也没落下。
公司名字值得多说一句。Physical Intelligence,缩写 PI,也就是 π。但这不只是个巧合。在强化学习里,π 是策略(policy)的标准数学符号。所以他们的第一个模型叫 π0,字面意思就是「第零代策略」。公司名、品牌符号、技术体系,三层含义压在一个希腊字母里。
这种命名的讲究程度,侧面说明了创始团队的学术基因有多深。

顺便说一句,PI 的官网可能是我见过最简洁的 AI 公司网站。没有花里胡哨的动画,没有铺满整屏的宣传语,就是一个 logo、三个导航、一列博客。但每篇博客都有料,这就是学者做公司的气质:产品自己说话。
PI 的融资节奏可能是具身智能领域最快的:
累计融资 10.7 亿美元。
投资人名单值得细看:Bezos 投了,OpenAI 投了,Google 母公司 Alphabet 的 CapitalG 也投了。这三家在 AI 领域是对手,但在 PI 这件事上押了同一边。说明他们有一个共识:通用机器人基础模型这条路能走通,而 PI 最有可能走出来。
PI 的研究节奏,18 个月发了 11 篇。但数量不是重点,重点是每篇都在解决上一篇留下的核心瓶颈:
时间 | 研究 | 解决的问题 |
|---|---|---|
2024.10 | π0 | 一个模型能控制多种机器人吗?能。 |
2025.01 | FAST | 训练太慢?动作 tokenizer,快 5 倍。 |
2025.02 | 开源 π0 | 社区能用吗?开源权重和代码(OpenPI)。 |
2025.04 | π0.5 | 只能在训练过的环境干活?开放世界泛化。 |
2025.11 | π*0.6 | 精度不够?强化学习微调,任务完成率翻倍。 |
2026.03 | MEM | 只能干几十秒?多尺度记忆,突破 10 分钟。 |
2026.03 | RLT | 新任务适应太慢?几小时数据在线强化学习。 |
这条进化链让我想到 OpenAI 从 GPT-2 到 GPT-4 的路径。每一步都踩在前一步的基础上,突破一个具体瓶颈,不断扩大模型的能力边界。
说句暴论:如果你想搞懂 VLA(视觉语言动作模型)这个领域,把 π 系列从头到尾读一遍,比看十篇综述都管用。 不夸张。π0 定义了 VLA 的基本架构,FAST 解决了动作编码,π0.5 推动了泛化,π*0.6 引入了强化学习。今天几乎所有做 VLA 的团队,不管用不用 PI 的代码,都绕不开 π 系列定义的问题框架和技术路线。
后续我会逐篇拆解这些论文。这篇先把全景铺开。
PI 的商业模式很明确:不造机器人,只做机器人的大脑。
每台接入 PI 模型的机器人,每月 300 美元订阅费。模型兼容 7 种以上硬件平台,支持 50 多种任务。开发者用 1-20 小时的数据就能微调到新场景。
已经有客户在真实业务中跑了:
Weave,旧金山的洗衣机器人公司。部署 π0.6 后,折叠失误减少 42%,每批衣物的人工干预减少一半。

Ultra,电商仓库包装机器人。接入 π0.6 后,每小时处理 150+ 件商品,整班次自主率 96.4%。
两个客户,一个做家务,一个做物流。机器人硬件完全不同,但跑的是同一个大脑。这就是通用基础模型的价值。
豪斯曼说过一句话:核心挑战不是机械设计,是智能。
大部分机器人公司把精力花在腿怎么走、手怎么抓上面。PI 赌的是另一条路:只要大脑够聪明,身体是谁的都行。
这个赌注能不能最终成立?我不确定。物理世界比语言世界复杂得多,语言模型犯错最多输出一句胡话,机器人模型犯错可能把杯子摔了。但如果看团队配置、技术路线的清晰度、资源储备,PI 是目前最接近答案的那一个。
MEM 让机器人从干几十秒进化到干 10 分钟。一年前这个数字还是零。进步的速度本身,可能就是最好的论据。
这是 PI 系列的第一篇。接下来会逐篇拆解他们的论文,从 π0 开始,带你把 VLA 这条技术路线从头捋一遍。
变化来了,能看懂的人先走一步
看清方向,比跑得快更重要。我是向光,下次见。