首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >具身智能的 OpenAI,可能已经出现了

具身智能的 OpenAI,可能已经出现了

作者头像
数据微光
发布2026-03-31 18:06:04
发布2026-03-31 18:06:04
1670
举报

如果具身智能领域会出现一个 OpenAI 级别的公司,我觉得 Physical Intelligence 是目前最接近的

10 亿美元融资,56 亿美元估值,18 个月发了 11 篇研究,已经有客户在用他们的模型做真实业务。但最让我在意的,不是这些数字,是创始团队

一切从一场讲座开始

PI 的 CEO 卡罗尔·豪斯曼(Karol Hausman)在波兰一个小镇长大,小时候看《星球大战》迷上了机器人。后来去斯坦福读博,原本做的是传统机器人控制。

转折点是一场讲座。

博士期间,他听了谢尔盖·莱文(Sergey Levine)关于深度学习的演讲,当场决定换方向。从传统控制转向深度强化学习,相当于推翻自己之前所有的研究积累重新来过。

读完博士,豪斯曼加入了 Google Brain(后来并入 DeepMind),成为 Staff Research Scientist。在那里,他和两个人走得很近:一个是当年改变他方向的莱文,UC Berkeley 教授,深度强化学习在机器人领域的开创者;另一个是切尔西·芬恩(Chelsea Finn),斯坦福教授,以 MAML(模型无关元学习)闻名,核心贡献是让模型快速适应从没见过的新任务。

三个人在 Google 内部做了好几年机器人研究。但到了 2023 年下半年,他们开始频繁地在工作之外讨论一个问题:

大语言模型的 scaling law(缩放定律) 在语言领域已经成了,同样的思路能不能用在机器人上?

训练一个足够大的模型,让它同时理解视觉、语言和动作,直接输出机器人该怎么动。不用给每种机器人、每个任务单独编程。一个通用的机器人大脑。

2024 年 3 月,他们离开了 Google,成立了 Physical Intelligence。

7 个创始人,和一个藏在名字里的野心

除了豪斯曼、莱文、芬恩三个学术大佬,PI 的联合创始人还有四个人:

  • Brian Ichter,Google Research 出身,运动规划和最优控制专家,现任 VP Engineering
  • Quan Vuong,强化学习研究者
  • Adnan Esmail,机器人工程师
  • Lachy Groom,Stripe 前高管,硅谷知名天使投资人,负责商业和运营

四个学者加三个工程/商业人才。学术能力拉满的同时,商业化能力也没落下。

公司名字值得多说一句。Physical Intelligence,缩写 PI,也就是 π。但这不只是个巧合。在强化学习里,π 是策略(policy)的标准数学符号。所以他们的第一个模型叫 π0,字面意思就是「第零代策略」。公司名、品牌符号、技术体系,三层含义压在一个希腊字母里。

这种命名的讲究程度,侧面说明了创始团队的学术基因有多深。

顺便说一句,PI 的官网可能是我见过最简洁的 AI 公司网站。没有花里胡哨的动画,没有铺满整屏的宣传语,就是一个 logo、三个导航、一列博客。但每篇博客都有料,这就是学者做公司的气质:产品自己说话。

融资速度:20 个月,10 亿美元

PI 的融资节奏可能是具身智能领域最快的:

  • 2024.03 种子轮 7000 万美元(Thrive Capital、OpenAI、Lux Capital)
  • 2024.11 A 轮 4 亿美元,估值 20 亿(Jeff Bezos 领投,OpenAI 跟投)
  • 2025.11 B 轮 6 亿美元,估值 56 亿(CapitalG 领投,Index Ventures、T. Rowe Price 新进)

累计融资 10.7 亿美元。

投资人名单值得细看:Bezos 投了,OpenAI 投了,Google 母公司 Alphabet 的 CapitalG 也投了。这三家在 AI 领域是对手,但在 PI 这件事上押了同一边。说明他们有一个共识:通用机器人基础模型这条路能走通,而 PI 最有可能走出来。

11 篇论文,一条清晰的进化链

PI 的研究节奏,18 个月发了 11 篇。但数量不是重点,重点是每篇都在解决上一篇留下的核心瓶颈:

时间

研究

解决的问题

2024.10

π0

一个模型能控制多种机器人吗?能。

2025.01

FAST

训练太慢?动作 tokenizer,快 5 倍。

2025.02

开源 π0

社区能用吗?开源权重和代码(OpenPI)。

2025.04

π0.5

只能在训练过的环境干活?开放世界泛化。

2025.11

π*0.6

精度不够?强化学习微调,任务完成率翻倍。

2026.03

MEM

只能干几十秒?多尺度记忆,突破 10 分钟。

2026.03

RLT

新任务适应太慢?几小时数据在线强化学习。

这条进化链让我想到 OpenAI 从 GPT-2 到 GPT-4 的路径。每一步都踩在前一步的基础上,突破一个具体瓶颈,不断扩大模型的能力边界。

说句暴论:如果你想搞懂 VLA(视觉语言动作模型)这个领域,把 π 系列从头到尾读一遍,比看十篇综述都管用。 不夸张。π0 定义了 VLA 的基本架构,FAST 解决了动作编码,π0.5 推动了泛化,π*0.6 引入了强化学习。今天几乎所有做 VLA 的团队,不管用不用 PI 的代码,都绕不开 π 系列定义的问题框架和技术路线。

后续我会逐篇拆解这些论文。这篇先把全景铺开。

不卖机器人,卖大脑

PI 的商业模式很明确:不造机器人,只做机器人的大脑。

每台接入 PI 模型的机器人,每月 300 美元订阅费。模型兼容 7 种以上硬件平台,支持 50 多种任务。开发者用 1-20 小时的数据就能微调到新场景。

已经有客户在真实业务中跑了:

Weave,旧金山的洗衣机器人公司。部署 π0.6 后,折叠失误减少 42%,每批衣物的人工干预减少一半。

Ultra,电商仓库包装机器人。接入 π0.6 后,每小时处理 150+ 件商品,整班次自主率 96.4%。

两个客户,一个做家务,一个做物流。机器人硬件完全不同,但跑的是同一个大脑。这就是通用基础模型的价值。

写在最后

豪斯曼说过一句话:核心挑战不是机械设计,是智能。

大部分机器人公司把精力花在腿怎么走、手怎么抓上面。PI 赌的是另一条路:只要大脑够聪明,身体是谁的都行。

这个赌注能不能最终成立?我不确定。物理世界比语言世界复杂得多,语言模型犯错最多输出一句胡话,机器人模型犯错可能把杯子摔了。但如果看团队配置、技术路线的清晰度、资源储备,PI 是目前最接近答案的那一个。

MEM 让机器人从干几十秒进化到干 10 分钟。一年前这个数字还是零。进步的速度本身,可能就是最好的论据。

这是 PI 系列的第一篇。接下来会逐篇拆解他们的论文,从 π0 开始,带你把 VLA 这条技术路线从头捋一遍。

变化来了,能看懂的人先走一步

看清方向,比跑得快更重要。我是向光,下次见。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据微光 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一切从一场讲座开始
  • 7 个创始人,和一个藏在名字里的野心
  • 融资速度:20 个月,10 亿美元
  • 11 篇论文,一条清晰的进化链
  • 不卖机器人,卖大脑
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档