-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
访谈来源:晚点聊 LateTalk 第149期
嘉宾:范浩强(原力灵机联创)、高阳(千寻智能联创兼首席科学家)
一、具身智能测评:从Demo工程到科学评测
RoboChallenge平台设计理念
- Robotics研究长期依赖cherry-pick的demo视频,录100遍取1条成功展示
- 学术界最佳论文也只测试3-4个任务,且不同论文任务不统一
- 真机测试方差大,需大规模重复测试(数百次)才能控制方差
- RoboChallenge采用Fine-tune设定:30个任务,每个任务约1000条示范数据
Table30任务设计逻辑
- 30个任务由内部研究员"画钩"设计,事后分析考点分布合理
- 每个任务有独特难点,考点覆盖丰富
- 碎纸任务:纸遮挡手眼,考验克服视觉盲区能力
- 插花任务:从执行器-物体互动扩展到物体-物体互动
- 扫二维码任务:扫前后图像状态一致,暴露单帧模型记忆短板
Pi 0到Pi 0.5的跨越式进步
- Pi 0在Table30上成功率仅20%多,平均4次尝试成功1次
- Pi 0.5提升至42%左右,简单任务可做到100%成功
- 国产千寻Spirit V1.5超越Pi 0.5登顶榜单
- 从旁观者视角能明显感受到模型"更灵光",行业处于具体进展阶段
两种测评范式对比
- RoboArena:Zero Shot设定,假设模型足够强可直接执行
- RoboChallenge:Fine-tune设定,符合当前实际需求
- 当前大多数模型在Zero Shot下成功率接近零,无法有效对比
- 测评目标从"百分之一精度"转向"反映模型发展趋势",能区分明显代差即可
二、具身智能的核心瓶颈:Scaling Data
数据是当前最大瓶颈
- 若有像大模型般无穷多的数据,具身模型技术路径已较清晰
- 2026年具身智能最核心主题是"Scaling Data"
- 瓶颈不在技术原理,而在规模化、低成本获取有效数据
四种数据获取路径
- 仿真数据:需艺术家在仿真器中搭建场景,扩展缓慢,多样性难以提升
- 人类视频数据:从人类操作视频中学习,效率高
- 可穿戴设备采集:工作者佩戴设备采集真实场景,可达千万小时级别
- 遥操作数据:真机远程操作,质量最高但成本高(需建造机器人)
数据路径的战略选择
- 千寻选择:人类视频 + 可穿戴 + 遥操作,排除仿真
- 原力灵机选择:以真机为主,复用旷视时期的大规模线下采集体系经验
- Generalist AI策略:人拿夹子采集,已采27万小时,每周新增1万小时
- 条条大路通罗马,最终卡点可能相同
仿真数据的困境
- 每个仿真场景需人工搭建,耗时缓慢
- 需持续投入3D资产制作、大规模资产扫描
- 当前多样性提升存在瓶颈,但未来可能成为重要方向
三、VLA模型的记忆缺失问题
单帧模型的失忆困境
- 大多数开源VLA基于单帧,无记忆能力
- 模型每0.几秒就"失忆",类似"每7秒就忘"的金鱼
- 只能看到当前场景,无法记住之前执行的动作
记忆短板的实战暴露
- 扫二维码任务:拿起扫码枪扫前扫后图像状态一致
- 模型无法判断是否已扫码,常常一伸手后停止不动
- 需记忆能力支持:模型需记住"刚才干了什么"
下一个关键突破点
- 记忆能力是VLA模型的必经之路
- 部分研究已开始将记忆机制引入模型
- 从单帧向多帧+记忆演进是技术趋势
四、具身智能的GPT-3时刻
当前发展阶段
- 类比大模型,具身智能处于"视觉AlexNet时期"
- 历史是波波echo,且echo频率越来越快
- 处于加速进化前夜
标志性任务:叠被子
- 扫地机器人厂商和家电厂不会认为叠被子是该做的事
- 任务有一定用处且不那么简单
- 旧技术(检测分割)无法完成,具身智能的突破口
- Pi 0.6可叠纸盒,Dyna Robotics主攻叠毛巾等软物体操作
时间的双重感知
- 从业者看到早期信号的时间比普通人早得多
- 普通人看到破圈需3-4年
- 某些任务对从业者虽不惊艳但已表明临界点临近
- 硬件精细度和给力程度是软物体操作的关键制约
五、Demo工程:行业公开的秘密
四种造假方式
- Cherry pick:录100遍取1条成功展示
- 视频剪辑:后期剪辑加速,掩盖实际耗时
- 遥操作:背后是人远程操作,非模型自主执行
- AIGC:直接生成虚假演示视频
防作弊机制
- 放置iPad时钟防止剪辑加速
- Demo时放置随机哈希值证明视频唯一性
- 规则取最后一次提交成绩,防止多次提交取最优
- 在线测评环境下无法控制物理环境,作弊成本上升
唯一可靠验证方法
- 现场观摩是辨别demo真伪的唯一去处
- 任何视频都可能被精心制作
- 行业对"demo工程"心照不宣但很少公开讨论
六、2026年中美具身竞争格局
中国能否实现具身DeepSeek时刻
- 过去看国外工作如Google只能羡慕
- 视觉时代人脸识别:Google从"天外来物"到国内追上仅用3年
- 当前节奏更快,具身领域可能更快实现追赶
- 2026年可能见证中国在具身领域超越美国
自信度随技术路线清晰化提升
- 创业初期需不断说服自己"时刻已到"
- 随着技术路线收敛,疑惑变少,确定性增加
- 2026年核心悬念:具身基础模型能否达到GPT-3或GPT-3.5水平
- 行业进步具体可见,信心建立在实测数据而非demo视频
核心术语
- VLA:Vision-Language-Action模型,具身智能主流技术路线
- Fine-tune:使用少量示范数据对基础模型进行微调
- Zero Shot:零样本,无需示例数据直接执行任务
- Cherry pick:从多次尝试中挑选最成功的展示
- Table30:RoboChallenge的30个桌面操作任务
- RoboChallenge:原力灵机与Hugging Face发起的Fine-tune测评平台
- RoboArena:Physical Intelligence发起的Zero Shot测评平台
- Pi:Physical Intelligence的具身模型系列
- Demo工程:精心挑选、剪辑、优化的演示视频
Reactions are currently unavailable