AD Knowledge BaseAutonomous Driving AI

AD Knowledge Base - Autonomous Driving AI Research

首页RT-2: 视觉-语言-动作模型在机器人控制中的迁移

RT-2: 视觉-语言-动作模型在机器人控制中的迁移

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2023-07-28CoRL 2023

查看原文暂无代码

中文摘要

Google DeepMind提出RT-2，将大规模VLM直接微调为机器人动作策略模型（VLA），展示了互联网知识向具身智能迁移的可行性。

工程评注

VLA 架构鼻祖，对自动驾驶 VLA 方案影响深远。

将动作 token 化后与语言 token 统一建模
55B 模型在 TPU v4 上推理 ~1-3Hz
自驾应用需大幅压缩模型（蒸馏到 1-3B）
动作空间设计是迁移到自驾的关键差异
启发了 DriveVLA、LMDrive 等后续工作

相关论文

DriveVLM: 视觉语言模型驱动的自动驾驶

2024-02-19|CoRL 2024

城市道路VLM规划