AD
Admin
Papers
Topics
View Site
Edit Paper
RT-2: 视觉-语言-动作模型在机器人控制中的迁移
论文标题
*
英文原标题
(选填)
arXiv / 原文链接
(选填)
自动填充
粘贴 arXiv 链接后点击“自动填充”可获取标题、作者、摘要、日期
GitHub 链接
(选填)
作者
(选填,回车添加)
发表日期
*
发表会议/期刊
(选填)
有开源实现
精选推荐
英文摘要
(选填,可从 arXiv 自动填充)
中文摘要
*
Google DeepMind提出RT-2,将大规模VLM直接微调为机器人动作策略模型(VLA),展示了互联网知识向具身智能迁移的可行性。
69/200
工程评注
*
**VLA 架构鼻祖**,对自动驾驶 VLA 方案影响深远。 - 将动作 token 化后与语言 token 统一建模 - 55B 模型在 TPU v4 上推理 ~1-3Hz - 自驾应用需大幅压缩模型(蒸馏到 1-3B) - 动作空间设计是迁移到自驾的关键差异 - 启发了 DriveVLA、LMDrive 等后续工作
支持 Markdown 格式,无字数限制
标签分类
(已选 3 个)
技术方向
(1 selected)
感知
Perception
预测
Prediction
规划
Planning
控制
Control
地图
Mapping
定位
Localization
技术范式
(2 selected)
端到端
End-to-End
VLM
Vision-Language Model
VLA
Vision-Language-Action
世界模型
World Model
强化学习
Reinforcement Learning
数据相关
数据生成
Data Generation
自动标注
Auto Labeling
仿真
Simulation
应用场景
城市道路
Urban Road
高速
Highway
停车
Parking
越野
Off-road
关联公司
特斯拉
Tesla
Waymo
Waymo
华为
Huawei
百度Apollo
Baidu Apollo
小鹏
Xpeng
理想
Li Auto
蔚来
NIO
地平线
Horizon Robotics
商汤
SenseTime
Nvidia
Nvidia
Comma.ai
Comma.ai
大疆卓驭
DJI
论文类型
综述
Survey
开创性工作
Seminal Work
工程实践
Engineering Practice
增量改进
Incremental
行业报告
Industry Report
手动关联论文
(选填,搜索标题添加)
Update Paper
Cancel