范浩强高阳 - 决策备忘录

**访谈来源**：晚点聊 LateTalk 第149期
**嘉宾**：范浩强（原力灵机联创）、高阳（千寻智能联创兼首席科学家）

---

## 一、具身智能测评：从Demo工程到科学评测

### RoboChallenge平台设计理念

- Robotics研究长期依赖cherry-pick的demo视频，录100遍取1条成功展示
- 学术界最佳论文也只测试3-4个任务，且不同论文任务不统一
- 真机测试方差大，需大规模重复测试（数百次）才能控制方差
- RoboChallenge采用Fine-tune设定：30个任务，每个任务约1000条示范数据

### Table30任务设计逻辑

- 30个任务由内部研究员"画钩"设计，事后分析考点分布合理
- 每个任务有独特难点，考点覆盖丰富
- 碎纸任务：纸遮挡手眼，考验克服视觉盲区能力
- 插花任务：从执行器-物体互动扩展到物体-物体互动
- 扫二维码任务：扫前后图像状态一致，暴露单帧模型记忆短板

### Pi 0到Pi 0.5的跨越式进步

- Pi 0在Table30上成功率仅20%多，平均4次尝试成功1次
- Pi 0.5提升至42%左右，简单任务可做到100%成功
- 国产千寻Spirit V1.5超越Pi 0.5登顶榜单
- 从旁观者视角能明显感受到模型"更灵光"，行业处于具体进展阶段

### 两种测评范式对比

- RoboArena：Zero Shot设定，假设模型足够强可直接执行
- RoboChallenge：Fine-tune设定，符合当前实际需求
- 当前大多数模型在Zero Shot下成功率接近零，无法有效对比
- 测评目标从"百分之一精度"转向"反映模型发展趋势"，能区分明显代差即可

---

## 二、具身智能的核心瓶颈：Scaling Data

### 数据是当前最大瓶颈

- 若有像大模型般无穷多的数据，具身模型技术路径已较清晰
- 2026年具身智能最核心主题是"Scaling Data"
- 瓶颈不在技术原理，而在规模化、低成本获取有效数据

### 四种数据获取路径

- **仿真数据**：需艺术家在仿真器中搭建场景，扩展缓慢，多样性难以提升
- **人类视频数据**：从人类操作视频中学习，效率高
- **可穿戴设备采集**：工作者佩戴设备采集真实场景，可达千万小时级别
- **遥操作数据**：真机远程操作，质量最高但成本高（需建造机器人）

### 数据路径的战略选择

- 千寻选择：人类视频 + 可穿戴 + 遥操作，排除仿真
- 原力灵机选择：以真机为主，复用旷视时期的大规模线下采集体系经验
- Generalist AI策略：人拿夹子采集，已采27万小时，每周新增1万小时
- 条条大路通罗马，最终卡点可能相同

### 仿真数据的困境

- 每个仿真场景需人工搭建，耗时缓慢
- 需持续投入3D资产制作、大规模资产扫描
- 当前多样性提升存在瓶颈，但未来可能成为重要方向

---

## 三、VLA模型的记忆缺失问题

### 单帧模型的失忆困境

- 大多数开源VLA基于单帧，无记忆能力
- 模型每0.几秒就"失忆"，类似"每7秒就忘"的金鱼
- 只能看到当前场景，无法记住之前执行的动作

### 记忆短板的实战暴露

- 扫二维码任务：拿起扫码枪扫前扫后图像状态一致
- 模型无法判断是否已扫码，常常一伸手后停止不动
- 需记忆能力支持：模型需记住"刚才干了什么"

### 下一个关键突破点

- 记忆能力是VLA模型的必经之路
- 部分研究已开始将记忆机制引入模型
- 从单帧向多帧+记忆演进是技术趋势

---

## 四、具身智能的GPT-3时刻

### 当前发展阶段

- 类比大模型，具身智能处于"视觉AlexNet时期"
- 历史是波波echo，且echo频率越来越快
- 处于加速进化前夜

### 标志性任务：叠被子

- 扫地机器人厂商和家电厂不会认为叠被子是该做的事
- 任务有一定用处且不那么简单
- 旧技术（检测分割）无法完成，具身智能的突破口
- Pi 0.6可叠纸盒，Dyna Robotics主攻叠毛巾等软物体操作

### 时间的双重感知

- 从业者看到早期信号的时间比普通人早得多
- 普通人看到破圈需3-4年
- 某些任务对从业者虽不惊艳但已表明临界点临近
- 硬件精细度和给力程度是软物体操作的关键制约

---

## 五、Demo工程：行业公开的秘密

### 四种造假方式

- **Cherry pick**：录100遍取1条成功展示
- **视频剪辑**：后期剪辑加速，掩盖实际耗时
- **遥操作**：背后是人远程操作，非模型自主执行
- **AIGC**：直接生成虚假演示视频

### 防作弊机制

- 放置iPad时钟防止剪辑加速
- Demo时放置随机哈希值证明视频唯一性
- 规则取最后一次提交成绩，防止多次提交取最优
- 在线测评环境下无法控制物理环境，作弊成本上升

### 唯一可靠验证方法

- 现场观摩是辨别demo真伪的唯一去处
- 任何视频都可能被精心制作
- 行业对"demo工程"心照不宣但很少公开讨论

---

## 六、2026年中美具身竞争格局

### 中国能否实现具身DeepSeek时刻

- 过去看国外工作如Google只能羡慕
- 视觉时代人脸识别：Google从"天外来物"到国内追上仅用3年
- 当前节奏更快，具身领域可能更快实现追赶
- 2026年可能见证中国在具身领域超越美国

### 自信度随技术路线清晰化提升

- 创业初期需不断说服自己"时刻已到"
- 随着技术路线收敛，疑惑变少，确定性增加
- 2026年核心悬念：具身基础模型能否达到GPT-3或GPT-3.5水平
- 行业进步具体可见，信心建立在实测数据而非demo视频

---

## 核心术语

- **VLA**：Vision-Language-Action模型，具身智能主流技术路线
- **Fine-tune**：使用少量示范数据对基础模型进行微调
- **Zero Shot**：零样本，无需示例数据直接执行任务
- **Cherry pick**：从多次尝试中挑选最成功的展示
- **Table30**：RoboChallenge的30个桌面操作任务
- **RoboChallenge**：原力灵机与Hugging Face发起的Fine-tune测评平台
- **RoboArena**：Physical Intelligence发起的Zero Shot测评平台
- **Pi**：Physical Intelligence的具身模型系列
- **Demo工程**：精心挑选、剪辑、优化的演示视频


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

范浩强高阳 - 决策备忘录 #8

一、具身智能测评：从Demo工程到科学评测

RoboChallenge平台设计理念

Table30任务设计逻辑

Pi 0到Pi 0.5的跨越式进步

两种测评范式对比

二、具身智能的核心瓶颈：Scaling Data

数据是当前最大瓶颈

四种数据获取路径

数据路径的战略选择

仿真数据的困境

三、VLA模型的记忆缺失问题

单帧模型的失忆困境

记忆短板的实战暴露

下一个关键突破点

四、具身智能的GPT-3时刻

当前发展阶段

标志性任务：叠被子

时间的双重感知

五、Demo工程：行业公开的秘密

四种造假方式

防作弊机制

唯一可靠验证方法

六、2026年中美具身竞争格局

中国能否实现具身DeepSeek时刻

自信度随技术路线清晰化提升

核心术语

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

范浩强高阳 - 决策备忘录 #8

Description

一、具身智能测评：从Demo工程到科学评测

RoboChallenge平台设计理念

Table30任务设计逻辑

Pi 0到Pi 0.5的跨越式进步

两种测评范式对比

二、具身智能的核心瓶颈：Scaling Data

数据是当前最大瓶颈

四种数据获取路径

数据路径的战略选择

仿真数据的困境

三、VLA模型的记忆缺失问题

单帧模型的失忆困境

记忆短板的实战暴露

下一个关键突破点

四、具身智能的GPT-3时刻

当前发展阶段

标志性任务：叠被子

时间的双重感知

五、Demo工程：行业公开的秘密

四种造假方式

防作弊机制

唯一可靠验证方法

六、2026年中美具身竞争格局

中国能否实现具身DeepSeek时刻

自信度随技术路线清晰化提升

核心术语

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions