一个单臂机器人“站”在桌前,桌上放着三个塑料动物玩具:狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后,这个机器人“思考”了一会儿,然后甚至机械臂,打开爪子,抓起了恐龙。
这是谷歌最新一款机器人模型Robotic Transformer 2(机器人变形金刚2,RT-2)。
上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西,也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。
作为一款新型视觉-语言-动作(vision-language-action,VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令。
相较于其他机器人研究,RT-2的核心优势在于,其不仅能直接接收“人话”指令,听懂“人话”、理解“人话”,还能做出相应推理,并转为机器人能理解的分阶段指令,从而做出动作完成任务。
RT-2完成的每一项任务,都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。
例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行任务,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应知识。