AD
AD Knowledge BaseAutonomous Driving AI
ADKB
PapersAdmin
AD Knowledge Base - Autonomous Driving AI Research
首页RT-2: 视觉-语言-动作模型在机器人控制中的迁移

RT-2: 视觉-语言-动作模型在机器人控制中的迁移

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2023-07-28CoRL 2023
VLMVLA控制
查看原文暂无代码

中文摘要

Google DeepMind提出RT-2,将大规模VLM直接微调为机器人动作策略模型(VLA),展示了互联网知识向具身智能迁移的可行性。

工程评注

VLA 架构鼻祖,对自动驾驶 VLA 方案影响深远。

  • 将动作 token 化后与语言 token 统一建模
  • 55B 模型在 TPU v4 上推理 ~1-3Hz
  • 自驾应用需大幅压缩模型(蒸馏到 1-3B)
  • 动作空间设计是迁移到自驾的关键差异
  • 启发了 DriveVLA、LMDrive 等后续工作

相关论文

DriveVLM: 视觉语言模型驱动的自动驾驶

2024-02-19|CoRL 2024
城市道路VLM规划