Skip to content

范浩强高阳 - 决策备忘录 #8

@parallelarc

Description

@parallelarc

访谈来源:晚点聊 LateTalk 第149期
嘉宾:范浩强(原力灵机联创)、高阳(千寻智能联创兼首席科学家)


一、具身智能测评:从Demo工程到科学评测

RoboChallenge平台设计理念

  • Robotics研究长期依赖cherry-pick的demo视频,录100遍取1条成功展示
  • 学术界最佳论文也只测试3-4个任务,且不同论文任务不统一
  • 真机测试方差大,需大规模重复测试(数百次)才能控制方差
  • RoboChallenge采用Fine-tune设定:30个任务,每个任务约1000条示范数据

Table30任务设计逻辑

  • 30个任务由内部研究员"画钩"设计,事后分析考点分布合理
  • 每个任务有独特难点,考点覆盖丰富
  • 碎纸任务:纸遮挡手眼,考验克服视觉盲区能力
  • 插花任务:从执行器-物体互动扩展到物体-物体互动
  • 扫二维码任务:扫前后图像状态一致,暴露单帧模型记忆短板

Pi 0到Pi 0.5的跨越式进步

  • Pi 0在Table30上成功率仅20%多,平均4次尝试成功1次
  • Pi 0.5提升至42%左右,简单任务可做到100%成功
  • 国产千寻Spirit V1.5超越Pi 0.5登顶榜单
  • 从旁观者视角能明显感受到模型"更灵光",行业处于具体进展阶段

两种测评范式对比

  • RoboArena:Zero Shot设定,假设模型足够强可直接执行
  • RoboChallenge:Fine-tune设定,符合当前实际需求
  • 当前大多数模型在Zero Shot下成功率接近零,无法有效对比
  • 测评目标从"百分之一精度"转向"反映模型发展趋势",能区分明显代差即可

二、具身智能的核心瓶颈:Scaling Data

数据是当前最大瓶颈

  • 若有像大模型般无穷多的数据,具身模型技术路径已较清晰
  • 2026年具身智能最核心主题是"Scaling Data"
  • 瓶颈不在技术原理,而在规模化、低成本获取有效数据

四种数据获取路径

  • 仿真数据:需艺术家在仿真器中搭建场景,扩展缓慢,多样性难以提升
  • 人类视频数据:从人类操作视频中学习,效率高
  • 可穿戴设备采集:工作者佩戴设备采集真实场景,可达千万小时级别
  • 遥操作数据:真机远程操作,质量最高但成本高(需建造机器人)

数据路径的战略选择

  • 千寻选择:人类视频 + 可穿戴 + 遥操作,排除仿真
  • 原力灵机选择:以真机为主,复用旷视时期的大规模线下采集体系经验
  • Generalist AI策略:人拿夹子采集,已采27万小时,每周新增1万小时
  • 条条大路通罗马,最终卡点可能相同

仿真数据的困境

  • 每个仿真场景需人工搭建,耗时缓慢
  • 需持续投入3D资产制作、大规模资产扫描
  • 当前多样性提升存在瓶颈,但未来可能成为重要方向

三、VLA模型的记忆缺失问题

单帧模型的失忆困境

  • 大多数开源VLA基于单帧,无记忆能力
  • 模型每0.几秒就"失忆",类似"每7秒就忘"的金鱼
  • 只能看到当前场景,无法记住之前执行的动作

记忆短板的实战暴露

  • 扫二维码任务:拿起扫码枪扫前扫后图像状态一致
  • 模型无法判断是否已扫码,常常一伸手后停止不动
  • 需记忆能力支持:模型需记住"刚才干了什么"

下一个关键突破点

  • 记忆能力是VLA模型的必经之路
  • 部分研究已开始将记忆机制引入模型
  • 从单帧向多帧+记忆演进是技术趋势

四、具身智能的GPT-3时刻

当前发展阶段

  • 类比大模型,具身智能处于"视觉AlexNet时期"
  • 历史是波波echo,且echo频率越来越快
  • 处于加速进化前夜

标志性任务:叠被子

  • 扫地机器人厂商和家电厂不会认为叠被子是该做的事
  • 任务有一定用处且不那么简单
  • 旧技术(检测分割)无法完成,具身智能的突破口
  • Pi 0.6可叠纸盒,Dyna Robotics主攻叠毛巾等软物体操作

时间的双重感知

  • 从业者看到早期信号的时间比普通人早得多
  • 普通人看到破圈需3-4年
  • 某些任务对从业者虽不惊艳但已表明临界点临近
  • 硬件精细度和给力程度是软物体操作的关键制约

五、Demo工程:行业公开的秘密

四种造假方式

  • Cherry pick:录100遍取1条成功展示
  • 视频剪辑:后期剪辑加速,掩盖实际耗时
  • 遥操作:背后是人远程操作,非模型自主执行
  • AIGC:直接生成虚假演示视频

防作弊机制

  • 放置iPad时钟防止剪辑加速
  • Demo时放置随机哈希值证明视频唯一性
  • 规则取最后一次提交成绩,防止多次提交取最优
  • 在线测评环境下无法控制物理环境,作弊成本上升

唯一可靠验证方法

  • 现场观摩是辨别demo真伪的唯一去处
  • 任何视频都可能被精心制作
  • 行业对"demo工程"心照不宣但很少公开讨论

六、2026年中美具身竞争格局

中国能否实现具身DeepSeek时刻

  • 过去看国外工作如Google只能羡慕
  • 视觉时代人脸识别:Google从"天外来物"到国内追上仅用3年
  • 当前节奏更快,具身领域可能更快实现追赶
  • 2026年可能见证中国在具身领域超越美国

自信度随技术路线清晰化提升

  • 创业初期需不断说服自己"时刻已到"
  • 随着技术路线收敛,疑惑变少,确定性增加
  • 2026年核心悬念:具身基础模型能否达到GPT-3或GPT-3.5水平
  • 行业进步具体可见,信心建立在实测数据而非demo视频

核心术语

  • VLA:Vision-Language-Action模型,具身智能主流技术路线
  • Fine-tune:使用少量示范数据对基础模型进行微调
  • Zero Shot:零样本,无需示例数据直接执行任务
  • Cherry pick:从多次尝试中挑选最成功的展示
  • Table30:RoboChallenge的30个桌面操作任务
  • RoboChallenge:原力灵机与Hugging Face发起的Fine-tune测评平台
  • RoboArena:Physical Intelligence发起的Zero Shot测评平台
  • Pi:Physical Intelligence的具身模型系列
  • Demo工程:精心挑选、剪辑、优化的演示视频

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions