AD
Admin
Papers
View Site
Edit Paper
RT-2: 视觉-语言-动作模型在机器人控制中的迁移
论文标题
*
英文原标题
(选填)
arXiv / 原文链接
(选填)
粘贴 arxiv ID(如 2401.12345)可自动补全链接
GitHub 链接
(选填)
发表日期
*
发表会议/期刊
(选填)
有开源实现
精选推荐
中文摘要
*
Google DeepMind提出RT-2,将大规模VLM直接微调为机器人动作策略模型(VLA),展示了互联网知识向具身智能迁移的可行性。
69/200
工程评注
*
**VLA 架构鼻祖**,对自动驾驶 VLA 方案影响深远。 - 将动作 token 化后与语言 token 统一建模 - 55B 模型在 TPU v4 上推理 ~1-3Hz - 自驾应用需大幅压缩模型(蒸馏到 1-3B) - 动作空间设计是迁移到自驾的关键差异 - 启发了 DriveVLA、LMDrive 等后续工作
支持 Markdown 格式,无字数限制
标签分类
(已选 3 个)
技术方向
(1 selected)
感知
Perception
预测
Prediction
规划
Planning
控制
Control
地图
Mapping
定位
Localization
技术范式
(2 selected)
端到端
End-to-End
VLM
Vision-Language Model
VLA
Vision-Language-Action
世界模型
World Model
强化学习
Reinforcement Learning
数据相关
数据生成
Data Generation
自动标注
Auto Labeling
仿真
Simulation
应用场景
城市道路
Urban Road
高速
Highway
停车
Parking
越野
Off-road
Update Paper
Cancel